SATA: A Paradigm for LLM Jailbreak via Simple Assistive Task Linkage Authors: Xiaoning Dong, Wenbo Hu, Wei Xu, Tianxing He | Published: 2024-12-19 | Updated: 2025-03-21 プロンプトインジェクション大規模言語モデル敵対的学習 2024.12.19 2025.04.03 文献データベース
Safeguarding System Prompts for LLMs Authors: Zhifeng Jiang, Zhihua Jin, Guoliang He | Published: 2024-12-18 | Updated: 2025-01-09 LLM性能評価プロンプトインジェクション防御手法 2024.12.18 2025.04.03 文献データベース
Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection Authors: Ira Ceka, Feitong Qiao, Anik Dey, Aastha Valecha, Gail Kaiser, Baishakhi Ray | Published: 2024-12-16 | Updated: 2025-01-18 LLM性能評価プロンプティング戦略プロンプトインジェクション 2024.12.16 2025.04.03 文献データベース
Heuristic-Induced Multimodal Risk Distribution Jailbreak Attack for Multimodal Large Language Models Authors: Ma Teng, Jia Xiaojun, Duan Ranjie, Li Xinfeng, Huang Yihao, Chu Zhixuan, Liu Yang, Ren Wenqi | Published: 2024-12-08 | Updated: 2025-01-03 コンテンツモデレーションプロンプトインジェクション攻撃手法 2024.12.08 2025.04.03 文献データベース
VLSBench: Unveiling Visual Leakage in Multimodal Safety Authors: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao | Published: 2024-11-29 | Updated: 2025-01-17 プロンプトインジェクション安全性アライメント 2024.11.29 2025.04.03 文献データベース
Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Ahmad Beirami, Furong Huang, Alvaro Velasquez, Dinesh Manocha, Amrit Singh Bedi | Published: 2024-11-27 | Updated: 2025-03-20 プロンプトインジェクション安全性アライメント敵対的攻撃 2024.11.27 2025.04.03 文献データベース
“Moralized” Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks Authors: Libo Wang | Published: 2024-11-23 | Updated: 2025-03-20 プロンプトインジェクション大規模言語モデル 2024.11.23 2025.04.03 文献データベース
JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24 ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いためプロンプトインジェクション大規模言語モデル 2024.11.17 文献データベース
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue Authors: Fengxiang Wang, Ranjie Duan, Peng Xiao, Xiaojun Jia, Shiji Zhao, Cheng Wei, YueFeng Chen, Chongwen Wang, Jialing Tao, Hang Su, Jun Zhu, Hui Xue | Published: 2024-11-06 | Updated: 2025-01-07 プロンプトインジェクションマルチラウンド対話 2024.11.06 2025.04.03 文献データベース
Denial-of-Service Poisoning Attacks against Large Language Models Authors: Kuofeng Gao, Tianyu Pang, Chao Du, Yong Yang, Shu-Tao Xia, Min Lin | Published: 2024-10-14 プロンプトインジェクションモデルDoSリソース不足の課題 2024.10.14 2025.04.03 文献データベース