GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing Authors: Peiyan Zhang, Haibo Jin, Liying Kang, Haohan Wang | Published: 2025-07-10 プロンプトの検証大規模言語モデル性能評価指標 2025.07.10 文献データベース
PenTest2.0: Towards Autonomous Privilege Escalation Using GenAI Authors: Haitham S. Al-Sinani, Chris J. Mitchell | Published: 2025-07-09 インダイレクトプロンプトインジェクションプロンプトの検証プロンプトリーキング 2025.07.09 文献データベース
A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures Authors: Dezhang Kong, Shi Lin, Zhenhua Xu, Zhebo Wang, Minghao Li, Yufeng Li, Yilun Zhang, Zeyang Sha, Yuyuan Li, Changting Lin, Xun Wang, Xuan Liu, Muhammad Khurram Khan, Ningyu Zhang, Chaochao Chen, Meng Han | Published: 2025-06-24 AIエージェント通信RAGへのポイズニング攻撃プロンプトの検証 2025.06.24 文献データベース
Adversarial Suffix Filtering: a Defense Pipeline for LLMs Authors: David Khachaturov, Robert Mullins | Published: 2025-05-14 プロンプトの検証倫理基準遵守攻撃検出手法 2025.05.14 文献データベース
Defending against Indirect Prompt Injection by Instruction Detection Authors: Tongyu Wen, Chenglong Wang, Xiyuan Yang, Haoyu Tang, Yueqi Xie, Lingjuan Lyu, Zhicheng Dou, Fangzhao Wu | Published: 2025-05-08 | Updated: 2025-09-17 プロンプトの検証評価手法透かし技術 2025.05.08 文献データベース
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction Authors: Yulin Chen, Haoran Li, Yuan Sui, Yue Liu, Yufei He, Yangqiu Song, Bryan Hooi | Published: 2025-04-29 インダイレクトプロンプトインジェクションプロンプトの検証攻撃手法 2025.04.29 文献データベース
Watermarking Needs Input Repetition Masking Authors: David Khachaturov, Robert Mullins, Ilia Shumailov, Sumanth Dathathri | Published: 2025-04-16 LLM性能評価プロンプトの検証透かし設計 2025.04.16 文献データベース
Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design Authors: Andreas Happe, Jürgen Cito | Published: 2025-04-14 テストベッドプロンプトの検証進捗追跡 2025.04.14 文献データベース
Detecting Instruction Fine-tuning Attacks on Language Models using Influence Function Authors: Jiawei Li | Published: 2025-04-12 | Updated: 2025-09-30 バックドア攻撃プロンプトの検証感情分析 2025.04.12 文献データベース
Can Indirect Prompt Injection Attacks Be Detected and Removed? Authors: Yulin Chen, Haoran Li, Yuan Sui, Yufei He, Yue Liu, Yangqiu Song, Bryan Hooi | Published: 2025-02-23 プロンプトの検証悪意のあるプロンプト攻撃手法 2025.02.23 2025.04.03 文献データベース