Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan | Published: 2025-11-24 倫理的考慮大規模言語モデル悪意のあるプロンプト 2025.11.24 文献データベース
Can MLLMs Detect Phishing? A Comprehensive Security Benchmark Suite Focusing on Dynamic Threats and Multimodal Evaluation in Academic Environments Authors: Jingzhuo Zhou | Published: 2025-11-19 プライバシーリスク管理プロンプトインジェクション大規模言語モデル 2025.11.19 文献データベース
Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security Authors: Hajun Kim, Hyunsik Na, Daeseon Choi | Published: 2025-11-18 プロンプトエンジニアリング大規模言語モデル悪意のあるプロンプト 2025.11.18 文献データベース
ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu | Published: 2025-11-17 プロンプトインジェクション大規模言語モデル進化的アルゴリズム 2025.11.17 文献データベース
Specification-Guided Vulnerability Detection with Large Language Models Authors: Hao Zhu, Jia Li, Cuiyun Gao, Jiaru Qian, Yihong Dong, Huanyu Liu, Lecheng Wang, Ziliang Wang, Xiaolong Hu, Ge Li | Published: 2025-11-06 プロンプトインジェクション大規模言語モデル脆弱性検出手法 2025.11.06 文献データベース
Whisper Leak: a side-channel attack on Large Language Models Authors: Geoff McDonald, Jonathan Bar Or | Published: 2025-11-05 トラフィック特性分析プロンプトリーキング大規模言語モデル 2025.11.05 文献データベース
Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations Authors: Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2025-10-23 モデルの堅牢性大規模言語モデル攻撃手法評価 2025.10.23 文献データベース
SAID: Empowering Large Language Models with Self-Activating Internal Defense Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23 プロンプトインジェクションモデルの堅牢性大規模言語モデル 2025.10.23 文献データベース
HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-21 クエリ生成手法大規模言語モデル脱獄手法 2025.10.21 文献データベース
VERA-V: Variational Inference Framework for Jailbreaking Vision-Language Models Authors: Qilin Liao, Anamika Lochab, Ruqi Zhang | Published: 2025-10-20 モデルDoS大規模言語モデル未ターゲット毒性攻撃 2025.10.20 文献データベース