Detecting Benchmark Contamination Through Watermarking Authors: Tom Sander, Pierre Fernandez, Saeed Mahloujifar, Alain Durmus, Chuan Guo | Published: 2025-02-24 | Updated: 2025-07-21 ウォーターマーキングデータ汚染検出性能評価 2025.02.24 文献データベース
GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods Authors: Ruixuan Huang, Xunguang Wang, Zongjie Li, Daoyuan Wu, Shuai Wang | Published: 2025-02-24 | Updated: 2025-07-09 プロンプトインジェクション脱獄手法評価手法 2025.02.24 文献データベース
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System Authors: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehenaz Khaled, Ahmedul Kabir | Published: 2025-02-23 | Updated: 2025-06-12 プロンプトインジェクション多エージェントシステムの評価敵対的攻撃評価 2025.02.23 文献データベース
Can Indirect Prompt Injection Attacks Be Detected and Removed? Authors: Yulin Chen, Haoran Li, Yuan Sui, Yufei He, Yue Liu, Yangqiu Song, Bryan Hooi | Published: 2025-02-23 プロンプトの検証悪意のあるプロンプト攻撃手法 2025.02.23 2025.04.03 文献データベース
Robustness and Cybersecurity in the EU Artificial Intelligence Act Authors: Henrik Nolte, Miriam Rateike, Michèle Finck | Published: 2025-02-22 | Updated: 2025-05-28 フェアネス学習ロバストな説明可能性規制の重要性 2025.02.22 文献データベース
Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents Authors: Ivoline Ngong, Swanand Kadhe, Hao Wang, Keerthiram Murugesan, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy | Published: 2025-02-22 | Updated: 2025-07-28 プライバシーリスク管理プロンプトリーキング透かし評価 2025.02.22 文献データベース
Benchmarking Android Malware Detection: Traditional vs. Deep Learning Models Authors: Guojun Liu, Doina Caragea, Xinming Ou, Sankardas Roy | Published: 2025-02-20 | Updated: 2025-07-30 データセットの影響レビューと調査透かし技術 2025.02.20 文献データベース
Red-Teaming LLM Multi-Agent Systems via Communication Attacks Authors: Pengfei He, Yupin Lin, Shen Dong, Han Xu, Yue Xing, Hui Liu | Published: 2025-02-20 | Updated: 2025-06-02 インダイレクトプロンプトインジェクション倫理的考慮通信セキュリティ 2025.02.20 文献データベース
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos Authors: Yang Yao, Xuan Tong, Ruofan Wang, Yixu Wang, Lujundong Li, Liang Liu, Yan Teng, Yingchun Wang | Published: 2025-02-19 | Updated: 2025-06-03 LLMの安全機構の解除倫理的考慮大規模言語モデル 2025.02.19 文献データベース
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings Authors: Weikai Lu, Hao Peng, Huiping Zhuang, Cen Chen, Ziqian Zeng | Published: 2025-02-18 | Updated: 2025-05-21 アライメントテキスト生成手法プロンプトインジェクション 2025.02.18 文献データベース