STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models Authors: Xunguang Wang, Wenxuan Wang, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang | Published: 2025-03-23 プロンプトインジェクション悪意のあるプロンプト防御手法の効果分析 2025.03.23 2025.04.03 文献データベース
Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification Authors: Yingjie Zhang, Tong Liu, Zhe Zhao, Guozhu Meng, Kai Chen | Published: 2025-03-14 LLMの安全機構の解除プロンプトインジェクション悪意のあるプロンプト 2025.03.14 2025.04.03 文献データベース
Can Indirect Prompt Injection Attacks Be Detected and Removed? Authors: Yulin Chen, Haoran Li, Yuan Sui, Yufei He, Yue Liu, Yangqiu Song, Bryan Hooi | Published: 2025-02-23 プロンプトの検証悪意のあるプロンプト攻撃手法 2025.02.23 2025.04.03 文献データベース
Toxicity Detection for Free Authors: Zhanhao Hu, Julien Piet, Geng Zhao, Jiantao Jiao, David Wagner | Published: 2024-05-29 | Updated: 2024-11-08 インダイレクトプロンプトインジェクションプロンプトの検証悪意のあるプロンプト 2024.05.29 2025.04.03 文献データベース
Defending Against Indirect Prompt Injection Attacks With Spotlighting Authors: Keegan Hines, Gary Lopez, Matthew Hall, Federico Zarfati, Yonatan Zunger, Emre Kiciman | Published: 2024-03-20 インダイレクトプロンプトインジェクションプロンプトインジェクション悪意のあるプロンプト 2024.03.20 2025.04.03 文献データベース
Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models Authors: Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang | Published: 2024-02-05 | Updated: 2024-10-07 プライバシー保護プロンプトインジェクション悪意のあるプロンプト 2024.02.05 2025.04.03 文献データベース
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Authors: Jingwei Yi, Yueqi Xie, Bin Zhu, Emre Kiciman, Guangzhong Sun, Xing Xie, Fangzhao Wu | Published: 2023-12-21 | Updated: 2025-01-27 インダイレクトプロンプトインジェクション悪意のあるプロンプト脆弱性分析 2023.12.21 2025.04.03 文献データベース
An LLM can Fool Itself: A Prompt-Based Adversarial Attack Authors: Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli | Published: 2023-10-20 プロンプトインジェクション悪意のあるプロンプト敵対的攻撃 2023.10.20 2025.04.03 文献データベース
Detecting Language Model Attacks with Perplexity Authors: Gabriel Alon, Michael Kamfonas | Published: 2023-08-27 | Updated: 2023-11-07 LLMセキュリティプロンプトインジェクション悪意のあるプロンプト 2023.08.27 2025.04.03 文献データベース
Abusing Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs Authors: Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov | Published: 2023-07-19 | Updated: 2023-10-03 インダイレクトプロンプトインジェクション悪意のあるプロンプト敵対的サンプル 2023.07.19 2025.04.03 文献データベース