AIセキュリティポータルbot

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Authors: Rui Yang Tan, Yujia Hu, Roy Ka-Wei Lee | Published: 2026-03-23
マルチモーダル安全性
大規模言語モデル
評価手法

Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks

Authors: Yanming Mu, Hao Hu, Feiyang Li, Qiao Yuan, Jiang Wu, Zichuan Liu, Pengcheng Liu, Mei Wang, Hongwei Zhou, Yuling Liu | Published: 2026-03-23
RAG
RAGへのポイズニング攻撃
データ毒性攻撃

Auditing MCP Servers for Over-Privileged Tool Capabilities

Authors: Charoes Huang, Xin Huang, Amin Milani Fard | Published: 2026-03-23
動的分析
評価手法
静的分析

Functional Subspace Watermarking for Large Language Models

Authors: Zikang Ding, Junhao Li, Suling Wu, Junchi Yao, Hongbo Liu, Lijie Hu | Published: 2026-03-19
ウォーターマーキング
プロンプトリーキング
メンバーシップ推論

Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review

Authors: Dimitris Mitropoulos, Nikolaos Alexopoulos, Georgios Alexopoulos, Diomidis Spinellis | Published: 2026-03-19
インダイレクトプロンプトインジェクション
プロンプトの検証
レビューと調査

CNT: Safety-oriented Function Reuse across LLMs via Cross-Model Neuron Transfer

Authors: Yue Zhao, Yujia Gong, Ruigang Liang, Shenchen Zhu, Kai Chen, Xuejing Yuan, Wangjun Zhang | Published: 2026-03-19
アライメント
出力の有害度の算出
評価手法

Prompt Control-Flow Integrity: A Priority-Aware Runtime Defense Against Prompt Injection in LLM Systems

Authors: Md Takrim Ul Alam, Akif Islam, Mohd Ruhul Ameen, Abu Saleh Musa Miah, Jungpil Shin | Published: 2026-03-19
LLM性能評価
インダイレクトプロンプトインジェクション
評価手法

PlanTwin: Privacy-Preserving Planning Abstractions for Cloud-Assisted LLM Agents

Authors: Guangsheng Yu, Qin Wang, Rui Lang, Shuai Su, Xu Wang | Published: 2026-03-19
インダイレクトプロンプトインジェクション
プライバシー漏洩
評価手法

Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs

Authors: Ya-Ting Yang, Quanyan Zhu | Published: 2026-03-18
プライバシー漏洩
差分プライバシー
評価手法

Machine Learning for Network Attacks Classification and Statistical Evaluation of Machine Learning for Network Attacks Classification and Adversarial Learning Methodologies for Synthetic Data Generation

Authors: Iakovos-Christos Zarkadis, Christos Douligeris | Published: 2026-03-18
ポイズニング
差分プライバシー
評価手法