大規模言語モデル

VERA-V: Variational Inference Framework for Jailbreaking Vision-Language Models

Authors: Qilin Liao, Anamika Lochab, Ruqi Zhang | Published: 2025-10-20
モデルDoS
大規模言語モデル
未ターゲット毒性攻撃

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Authors: Xu Zhang, Hao Li, Zhichao Lu | Published: 2025-10-20
クエリ生成手法
プロンプトインジェクション
大規模言語モデル

Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers

Authors: Andrew Zhao, Reshmi Ghosh, Vitor Carvalho, Emily Lawton, Keegan Hines, Gao Huang, Jack W. Stokes | Published: 2025-10-16
プロンプトインジェクション
プロンプトリーキング
大規模言語モデル

Terrarium: Revisiting the Blackboard for Multi-Agent Safety, Privacy, and Security Studies

Authors: Mason Nakamura, Abhinav Kumar, Saaduddin Mahmud, Sahar Abdelnabi, Shlomo Zilberstein, Eugene Bagdasarian | Published: 2025-10-16
エージェント設計
大規模言語モデル
通信プロトコル

In-Browser LLM-Guided Fuzzing for Real-Time Prompt Injection Testing in Agentic AI Browsers

Authors: Avihay Cohen | Published: 2025-10-15
インダイレクトプロンプトインジェクション
大規模言語モデル
自動生成フレームワーク

Who Speaks for the Trigger? Dynamic Expert Routing in Backdoored Mixture-of-Experts Transformers

Authors: Xin Zhao, Xiaojun Chen, Bingshan Liu, Haoyu Gao, Zhendong Zhao, Yilong Chen | Published: 2025-10-15
バックドアモデルの検知
プロンプトリーキング
大規模言語モデル

Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems

Authors: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang | Published: 2025-10-14
バイアス
プロンプトリーキング
大規模言語モデル

Traveling Salesman-Based Token Ordering Improves Stability in Homomorphically Encrypted Language Models

Authors: Donghwan Rho, Sieun Seo, Hyewon Sung, Chohong Min, Ernest K. Ryu | Published: 2025-10-14
トークン分布分析
メンバーシップ推論
大規模言語モデル

PromptLocate: Localizing Prompt Injection Attacks

Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong | Published: 2025-10-14
プロンプトの検証
大規模言語モデル
評価指標

PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities

Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13
セキュリティ分析手法
大規模言語モデル
防御メカニズム