AIセキュリティポータルbot | ページ 86 | AIセキュリティポータル

LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge

Authors: Songze Li, Chuokun Xu, Jiaying Wang, Xueluan Gong, Chen Chen, Jirui Zhang, Jun Wang, Kwok-Yan Lam, Shouling Ji | Published: 2025-06-11

LLMの安全機構の解除

プロンプトインジェクション

敵対的攻撃

2025.06.11

文献データベース

Adversarial Surrogate Risk Bounds for Binary Classification

Authors: Natalie S. Frank | Published: 2025-06-11

モデルの頑健性保証

収束解析

関数境界ペア形成

2025.06.11

文献データベース

Design Patterns for Securing LLM Agents against Prompt Injections

Authors: Luca Beurer-Kellner, Beat Buesser Ana-Maria Creţu, Edoardo Debenedetti, Daniel Dobos, Daniel Fabian, Marc Fischer, David Froelicher, Kathrin Grosse, Daniel Naeff, Ezinwanne Ozoani, Andrew Paverd, Florian Tramèr, Václav Volhejn | Published: 2025-06-10 | Updated: 2025-06-11

インダイレクトプロンプトインジェクション

プロンプトインジェクション

防御手法

2025.06.10

文献データベース

Your Agent Can Defend Itself against Backdoor Attacks

Authors: Li Changjiang, Liang Jiacheng, Cao Bochuan, Chen Jinghui, Wang Ting | Published: 2025-06-10 | Updated: 2025-06-11

RAGへのポイズニング攻撃

バックドア攻撃対策

防御手法

2025.06.10

文献データベース

Understanding the Error Sensitivity of Privacy-Aware Computing

Authors: Matías Mazzanti, Esteban Mocskos, Augusto Vega, Pradip Bose | Published: 2025-06-09

エラー訂正コード

プライバシー保護メカニズム

暗号化技術

2025.06.09

文献データベース

TokenBreak: Bypassing Text Classification Models Through Token Manipulation

Authors: Kasimir Schulz, Kenneth Yeung, Kieran Evans | Published: 2025-06-09

敵対的攻撃手法

防御手法

2025.06.09

文献データベース

Secure Distributed Learning for CAVs: Defending Against Gradient Leakage with Leveled Homomorphic Encryption

Authors: Muhammad Ali Najjar, Ren-Yi Huang, Dumindu Samaraweera, Prashant Shekhar | Published: 2025-06-09

プライバシー保護メカニズム

暗号化技術

連合学習

2025.06.09

文献データベース

SoK: Data Reconstruction Attacks Against Machine Learning Models: Definition, Metrics, and Benchmark

Authors: Rui Wen, Yiyong Liu, Michael Backes, Yang Zhang | Published: 2025-06-09

モデルDoS

再構成アルゴリズム

評価メトリクス

2025.06.09

文献データベース

Are Trees Really Green? A Detection Approach of IoT Malware Attacks

Authors: Silvia Lucia Sanna, Diego Soi, Davide Maiorca, Giorgio Giacinto | Published: 2025-06-09

IoTネットワーク攻撃

医療IoTの進展

最適化戦略

2025.06.09

文献データベース

Enhancing Adversarial Robustness with Conformal Prediction: A Framework for Guaranteed Model Reliability

Authors: Jie Bao, Chuangyin Dang, Rui Luo, Hanwei Zhang, Zhixin Zhou | Published: 2025-06-09

モデルの頑健性保証

ロバスト最適化

敵対的攻撃手法

2025.06.09

文献データベース