“Moralized” Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks Authors: Libo Wang | Published: 2024-11-23 | Updated: 2025-03-20 プロンプトインジェクション大規模言語モデル 2024.11.23 2025.04.03 文献データベース
JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24 ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いためプロンプトインジェクション大規模言語モデル 2024.11.17 文献データベース
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue Authors: Fengxiang Wang, Ranjie Duan, Peng Xiao, Xiaojun Jia, Shiji Zhao, Cheng Wei, YueFeng Chen, Chongwen Wang, Jialing Tao, Hang Su, Jun Zhu, Hui Xue | Published: 2024-11-06 | Updated: 2025-01-07 プロンプトインジェクションマルチラウンド対話 2024.11.06 2025.04.03 文献データベース
SQL Injection Jailbreak: A Structural Disaster of Large Language Models Authors: Jiawei Zhao, Kejiang Chen, Weiming Zhang, Nenghai Yu | Published: 2024-11-03 | Updated: 2025-05-21 プロンプトインジェクションプロンプトリーキング攻撃タイプ 2024.11.03 文献データベース
What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks Authors: Nathalie Kirch, Constantin Weisser, Severin Field, Helen Yannakoudakis, Stephen Casper | Published: 2024-11-02 | Updated: 2025-05-14 LLMの安全機構の解除プロンプトインジェクション探索的攻撃 2024.11.02 文献データベース
Defense Against Prompt Injection Attack by Leveraging Attack Techniques Authors: Yulin Chen, Haoran Li, Zihao Zheng, Yangqiu Song, Dekai Wu, Bryan Hooi | Published: 2024-11-01 | Updated: 2025-07-22 インダイレクトプロンプトインジェクションプロンプトインジェクション攻撃手法 2024.11.01 文献データベース
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models Authors: Benji Peng, Keyu Chen, Qian Niu, Ziqian Bi, Ming Liu, Pohsun Feng, Tianyang Wang, Lawrence K. Q. Yan, Yizhu Wen, Yichao Zhang, Caitlyn Heqi Yin | Published: 2024-10-20 | Updated: 2025-05-08 LLMセキュリティLLMの安全機構の解除プロンプトインジェクション 2024.10.20 文献データベース
Feint and Attack: Attention-Based Strategies for Jailbreaking and Protecting LLMs Authors: Rui Pu, Chaozhuo Li, Rui Ha, Zejian Chen, Litian Zhang, Zheng Liu, Lirong Qiu, Zaisheng Ye | Published: 2024-10-18 | Updated: 2025-07-08 LLMの安全機構の解除プロンプトインジェクションプロンプトの検証 2024.10.18 文献データベース
Reconstruction of Differentially Private Text Sanitization via Large Language Models Authors: Shuchao Pang, Zhigang Lu, Haichen Wang, Peng Fu, Yongbin Zhou, Minhui Xue | Published: 2024-10-16 | Updated: 2025-09-18 プライバシー分析プロンプトインジェクションプロンプトリーキング 2024.10.16 文献データベース
Denial-of-Service Poisoning Attacks against Large Language Models Authors: Kuofeng Gao, Tianyu Pang, Chao Du, Yong Yang, Shu-Tao Xia, Min Lin | Published: 2024-10-14 プロンプトインジェクションモデルDoSリソース不足の課題 2024.10.14 2025.04.03 文献データベース