Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models Authors: Rui Yang Tan, Yujia Hu, Roy Ka-Wei Lee | Published: 2026-03-23 マルチモーダル安全性大規模言語モデル評価手法 2026.03.23 文献データベース
Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks Authors: Yanming Mu, Hao Hu, Feiyang Li, Qiao Yuan, Jiang Wu, Zichuan Liu, Pengcheng Liu, Mei Wang, Hongwei Zhou, Yuling Liu | Published: 2026-03-23 RAGRAGへのポイズニング攻撃データ毒性攻撃 2026.03.23 文献データベース
Auditing MCP Servers for Over-Privileged Tool Capabilities Authors: Charoes Huang, Xin Huang, Amin Milani Fard | Published: 2026-03-23 動的分析評価手法静的分析 2026.03.23 文献データベース
Functional Subspace Watermarking for Large Language Models Authors: Zikang Ding, Junhao Li, Suling Wu, Junchi Yao, Hongbo Liu, Lijie Hu | Published: 2026-03-19 ウォーターマーキングプロンプトリーキングメンバーシップ推論 2026.03.19 文献データベース
Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review Authors: Dimitris Mitropoulos, Nikolaos Alexopoulos, Georgios Alexopoulos, Diomidis Spinellis | Published: 2026-03-19 インダイレクトプロンプトインジェクションプロンプトの検証レビューと調査 2026.03.19 文献データベース
CNT: Safety-oriented Function Reuse across LLMs via Cross-Model Neuron Transfer Authors: Yue Zhao, Yujia Gong, Ruigang Liang, Shenchen Zhu, Kai Chen, Xuejing Yuan, Wangjun Zhang | Published: 2026-03-19 アライメント出力の有害度の算出評価手法 2026.03.19 文献データベース
Prompt Control-Flow Integrity: A Priority-Aware Runtime Defense Against Prompt Injection in LLM Systems Authors: Md Takrim Ul Alam, Akif Islam, Mohd Ruhul Ameen, Abu Saleh Musa Miah, Jungpil Shin | Published: 2026-03-19 LLM性能評価インダイレクトプロンプトインジェクション評価手法 2026.03.19 文献データベース
PlanTwin: Privacy-Preserving Planning Abstractions for Cloud-Assisted LLM Agents Authors: Guangsheng Yu, Qin Wang, Rui Lang, Shuai Su, Xu Wang | Published: 2026-03-19 インダイレクトプロンプトインジェクションプライバシー漏洩評価手法 2026.03.19 文献データベース
Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs Authors: Ya-Ting Yang, Quanyan Zhu | Published: 2026-03-18 プライバシー漏洩差分プライバシー評価手法 2026.03.18 文献データベース
Machine Learning for Network Attacks Classification and Statistical Evaluation of Machine Learning for Network Attacks Classification and Adversarial Learning Methodologies for Synthetic Data Generation Authors: Iakovos-Christos Zarkadis, Christos Douligeris | Published: 2026-03-18 ポイズニング差分プライバシー評価手法 2026.03.18 文献データベース