敵対的攻撃評価

AegisAgent: An Autonomous Defense Agent Against Prompt Injection Attacks in LLM-HARs

Authors: Yihan Wang, Huanqi Yang, Shantanu Pal, Weitao Xu | Published: 2025-12-24
インダイレクトプロンプトインジェクション
プロンプトインジェクション
敵対的攻撃評価

ChatGPT: Excellent Paper! Accept It. Editor: Imposter Found! Review Rejected

Authors: Kanchon Gharami, Sanjiv Kumar Sarkar, Yongxin Liu, Shafika Showkat Moni | Published: 2025-12-23
プロンプトリーキング
モデル抽出攻撃
敵対的攻撃評価

Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models

Authors: Linzhi Chen, Yang Sun, Hongru Wei, Yuqi Chen | Published: 2025-12-22
バックドアモデルの検知
モデル抽出攻撃の検知
敵対的攻撃評価

PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization

Authors: Yang Jiao, Xiaodong Wang, Kai Yang | Published: 2025-04-10
LLM性能評価
RAGへのポイズニング攻撃
敵対的攻撃評価

Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System

Authors: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehenaz Khaled, Ahmedul Kabir | Published: 2025-02-23 | Updated: 2025-06-12
プロンプトインジェクション
多エージェントシステムの評価
敵対的攻撃評価

Houdini: Fooling Deep Structured Prediction Models

Authors: Moustapha Cisse, Yossi Adi, Natalia Neverova, Joseph Keshet | Published: 2017-07-17
モデルの頑健性保証
敵対的攻撃評価
音声認識技術