大規模言語モデル

Terrarium: Revisiting the Blackboard for Multi-Agent Safety, Privacy, and Security Studies

Authors: Mason Nakamura, Abhinav Kumar, Saaduddin Mahmud, Sahar Abdelnabi, Shlomo Zilberstein, Eugene Bagdasarian | Published: 2025-10-16

エージェント設計

大規模言語モデル

通信プロトコル

2025.10.16

文献データベース

In-Browser LLM-Guided Fuzzing for Real-Time Prompt Injection Testing in Agentic AI Browsers

Authors: Avihay Cohen | Published: 2025-10-15

インダイレクトプロンプトインジェクション

大規模言語モデル

自動生成フレームワーク

2025.10.15

文献データベース

Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers

Authors: Xin Zhao, Xiaojun Chen, Bingshan Liu, Haoyu Gao, Zhendong Zhao, Yilong Chen | Published: 2025-10-15

バックドアモデルの検知

プロンプトリーキング

大規模言語モデル

2025.10.15

文献データベース

Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems

Authors: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang | Published: 2025-10-14

バイアス

プロンプトリーキング

大規模言語モデル

2025.10.14

文献データベース

Traveling Salesman-Based Token Ordering Improves Stability in Homomorphically Encrypted Language Models

Authors: Donghwan Rho, Sieun Seo, Hyewon Sung, Chohong Min, Ernest K. Ryu | Published: 2025-10-14

トークン分布分析

メンバーシップ推論

大規模言語モデル

2025.10.14

文献データベース

PromptLocate: Localizing Prompt Injection Attacks

Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong | Published: 2025-10-14

プロンプトの検証

大規模言語モデル

評価指標

2025.10.14

文献データベース

PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities

Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13

セキュリティ分析手法

大規模言語モデル

防御メカニズム

2025.10.13

文献データベース

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Authors: Fatmazohra Rezkellah, Ramzi Dakhmouche | Published: 2025-10-03 | Updated: 2025-10-15

AIによる出力の識別

ロバスト性

大規模言語モデル

2025.10.03

文献データベース

NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks

Authors: Javad Rafiei Asl, Sidhant Narula, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-03 | Updated: 2025-10-21

プロンプトインジェクション

大規模言語モデル

脱獄手法

2025.10.03

文献データベース

Bypassing Prompt Guards in Production with Controlled-Release Prompting

Authors: Jaiden Fairoze, Sanjam Garg, Keewoo Lee, Mingyuan Wang | Published: 2025-10-02

プロンプトインジェクション

大規模言語モデル

構造的攻撃

2025.10.02

文献データベース