PromptCOS: Towards System Prompt Copyright Auditing for LLMs via Content-level Output Similarity Authors: Yuchen Yang, Yiming Li, Hongwei Yao, Enhao Huang, Shuo Shao, Bingrun Yang, Zhibo Wang, Dacheng Tao, Zhan Qin | Published: 2025-09-03 プロンプトの検証プロンプトリーキングモデル抽出攻撃 2025.09.03 文献データベース
EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint Authors: Zhenhua Xu, Meng Han, Wenpeng Xing | Published: 2025-09-03 LLMの安全機構の解除データ保護手法プロンプトの検証 2025.09.03 文献データベース
PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance Authors: Mengxiao Wang, Yuxuan Zhang, Guofei Gu | Published: 2025-08-28 インダイレクトプロンプトインジェクションプロンプトインジェクションプロンプトの検証 2025.08.28 文献データベース
Attacking interpretable NLP systems Authors: Eldor Abdukhamidov, Tamer Abuhmed, Joanna C. S. Santos, Mohammed Abuhamad | Published: 2025-07-22 プロンプトインジェクションプロンプトの検証敵対的攻撃手法 2025.07.22 文献データベース
GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing Authors: Peiyan Zhang, Haibo Jin, Liying Kang, Haohan Wang | Published: 2025-07-10 プロンプトの検証大規模言語モデル性能評価指標 2025.07.10 文献データベース
PenTest2.0: Towards Autonomous Privilege Escalation Using GenAI Authors: Haitham S. Al-Sinani, Chris J. Mitchell | Published: 2025-07-09 インダイレクトプロンプトインジェクションプロンプトの検証プロンプトリーキング 2025.07.09 文献データベース
A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures Authors: Dezhang Kong, Shi Lin, Zhenhua Xu, Zhebo Wang, Minghao Li, Yufeng Li, Yilun Zhang, Zeyang Sha, Yuyuan Li, Changting Lin, Xun Wang, Xuan Liu, Muhammad Khurram Khan, Ningyu Zhang, Chaochao Chen, Meng Han | Published: 2025-06-24 AIエージェント通信RAGへのポイズニング攻撃プロンプトの検証 2025.06.24 文献データベース
Adversarial Suffix Filtering: a Defense Pipeline for LLMs Authors: David Khachaturov, Robert Mullins | Published: 2025-05-14 プロンプトの検証倫理基準遵守攻撃検出手法 2025.05.14 文献データベース
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction Authors: Yulin Chen, Haoran Li, Yuan Sui, Yue Liu, Yufei He, Yangqiu Song, Bryan Hooi | Published: 2025-04-29 インダイレクトプロンプトインジェクションプロンプトの検証攻撃手法 2025.04.29 文献データベース
Watermarking Needs Input Repetition Masking Authors: David Khachaturov, Robert Mullins, Ilia Shumailov, Sumanth Dathathri | Published: 2025-04-16 LLM性能評価プロンプトの検証透かし設計 2025.04.16 文献データベース