BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents Authors: Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian | Published: 2024-06-05 LLMセキュリティバックドア攻撃プロンプトインジェクション 2024.06.05 2025.04.03 文献データベース
Safeguarding Large Language Models: A Survey Authors: Yi Dong, Ronghui Mu, Yanghao Zhang, Siqi Sun, Tianle Zhang, Changshun Wu, Gaojie Jin, Yi Qi, Jinwei Hu, Jie Meng, Saddek Bensalem, Xiaowei Huang | Published: 2024-06-03 LLMセキュリティガードレール手法プロンプトインジェクション 2024.06.03 2025.04.03 文献データベース
Decoupled Alignment for Robust Plug-and-Play Adaptation Authors: Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry Yao-Chieh Hu, Xinyu Xing, Han Liu | Published: 2024-06-03 | Updated: 2024-06-06 LLM性能評価プロンプトインジェクションモデル性能評価 2024.06.03 2025.04.03 文献データベース
BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards Authors: Diego Dorn, Alexandre Variengien, Charbel-Raphaël Segerie, Vincent Corruble | Published: 2024-06-03 LLMセキュリティコンテンツモデレーションプロンプトインジェクション 2024.06.03 2025.04.03 文献データベース
Exploring Vulnerabilities and Protections in Large Language Models: A Survey Authors: Frank Weizhen Liu, Chenhui Hu | Published: 2024-06-01 LLMセキュリティプロンプトインジェクション防御手法 2024.06.01 2025.04.03 文献データベース
Improved Techniques for Optimization-Based Jailbreaking on Large Language Models Authors: Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin | Published: 2024-05-31 | Updated: 2024-06-05 LLMセキュリティウォーターマーキングプロンプトインジェクション 2024.05.31 2025.04.03 文献データベース
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu | Published: 2024-05-27 | Updated: 2024-10-05 LLMセキュリティバックドア攻撃プロンプトインジェクション 2024.05.27 2025.04.03 文献データベース
Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models Authors: Xijie Huang, Xinyuan Wang, Hantao Zhang, Yinghao Zhu, Jiawen Xi, Jingkun An, Hao Wang, Hao Liang, Chengwei Pan | Published: 2024-05-26 | Updated: 2024-08-21 プロンプトインジェクション医療AIの脅威攻撃手法 2024.05.26 2025.04.03 文献データベース
Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character Authors: Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu | Published: 2024-05-25 | Updated: 2024-06-12 LLMセキュリティプロンプトインジェクション攻撃手法 2024.05.25 2025.04.03 文献データベース
Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study Authors: Karl Tamberg, Hayretdin Bahsi | Published: 2024-05-24 LLM性能評価プロンプトインジェクション脆弱性管理 2024.05.24 2025.04.03 文献データベース