Terrarium: Revisiting the Blackboard for Multi-Agent Safety, Privacy, and Security Studies Authors: Mason Nakamura, Abhinav Kumar, Saaduddin Mahmud, Sahar Abdelnabi, Shlomo Zilberstein, Eugene Bagdasarian | Published: 2025-10-16 エージェント設計大規模言語モデル通信プロトコル 2025.10.16 文献データベース
In-Browser LLM-Guided Fuzzing for Real-Time Prompt Injection Testing in Agentic AI Browsers Authors: Avihay Cohen | Published: 2025-10-15 インダイレクトプロンプトインジェクション大規模言語モデル自動生成フレームワーク 2025.10.15 文献データベース
Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers Authors: Xin Zhao, Xiaojun Chen, Bingshan Liu, Haoyu Gao, Zhendong Zhao, Yilong Chen | Published: 2025-10-15 バックドアモデルの検知プロンプトリーキング大規模言語モデル 2025.10.15 文献データベース
Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems Authors: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang | Published: 2025-10-14 バイアスプロンプトリーキング大規模言語モデル 2025.10.14 文献データベース
Traveling Salesman-Based Token Ordering Improves Stability in Homomorphically Encrypted Language Models Authors: Donghwan Rho, Sieun Seo, Hyewon Sung, Chohong Min, Ernest K. Ryu | Published: 2025-10-14 トークン分布分析メンバーシップ推論大規模言語モデル 2025.10.14 文献データベース
PromptLocate: Localizing Prompt Injection Attacks Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong | Published: 2025-10-14 プロンプトの検証大規模言語モデル評価指標 2025.10.14 文献データベース
PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13 セキュリティ分析手法大規模言語モデル防御メカニズム 2025.10.13 文献データベース
Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs Authors: Fatmazohra Rezkellah, Ramzi Dakhmouche | Published: 2025-10-03 | Updated: 2025-10-15 AIによる出力の識別ロバスト性大規模言語モデル 2025.10.03 文献データベース
NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks Authors: Javad Rafiei Asl, Sidhant Narula, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-03 | Updated: 2025-10-21 プロンプトインジェクション大規模言語モデル脱獄手法 2025.10.03 文献データベース
Bypassing Prompt Guards in Production with Controlled-Release Prompting Authors: Jaiden Fairoze, Sanjam Garg, Keewoo Lee, Mingyuan Wang | Published: 2025-10-02 プロンプトインジェクション大規模言語モデル構造的攻撃 2025.10.02 文献データベース