Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification Authors: Yingjie Zhang, Tong Liu, Zhe Zhao, Guozhu Meng, Kai Chen | Published: 2025-03-14 LLMの安全機構の解除プロンプトインジェクション悪意のあるプロンプト 2025.03.14 2025.04.03 文献データベース
CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-03-12 | Updated: 2025-09-17 LLMの安全機構の解除セキュリティ分析プロンプトインジェクション 2025.03.12 文献データベース
Probabilistic Modeling of Jailbreak on Multimodal LLMs: From Quantification to Application Authors: Wenzhuo Xu, Zhipeng Wei, Xiongtao Sun, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou | Published: 2025-03-10 | Updated: 2025-07-31 プロンプトインジェクション大規模言語モデル透かし技術の堅牢性 2025.03.10 文献データベース
Improving LLM Safety Alignment with Dual-Objective Optimization Authors: Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song | Published: 2025-03-05 | Updated: 2025-06-12 プロンプトインジェクションロバスト性向上手法安全性と有用性のトレードオフ 2025.03.05 文献データベース
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks Authors: Hanjiang Hu, Alexander Robey, Changliu Liu | Published: 2025-02-28 | Updated: 2025-08-25 バックドア攻撃プロンプトインジェクション透かし 2025.02.28 文献データベース
Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs Authors: Shiyu Xiang, Ansen Zhang, Yanfei Cao, Yang Fan, Ronghao Chen | Published: 2025-02-26 | Updated: 2025-05-28 LLMセキュリティプロンプトインジェクション攻撃の評価 2025.02.26 文献データベース
GuidedBench: Measuring and Mitigating the Evaluation Discrepancies of In-the-wild LLM Jailbreak Methods Authors: Ruixuan Huang, Xunguang Wang, Zongjie Li, Daoyuan Wu, Shuai Wang | Published: 2025-02-24 | Updated: 2025-07-09 プロンプトインジェクション脱獄手法評価手法 2025.02.24 文献データベース
Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System Authors: Saikat Barua, Mostafizur Rahman, Md Jafor Sadek, Rafiul Islam, Shehenaz Khaled, Ahmedul Kabir | Published: 2025-02-23 | Updated: 2025-06-12 プロンプトインジェクション多エージェントシステムの評価敵対的攻撃評価 2025.02.23 文献データベース
SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings Authors: Weikai Lu, Hao Peng, Huiping Zhuang, Cen Chen, Ziqian Zeng | Published: 2025-02-18 | Updated: 2025-05-21 アライメントテキスト生成手法プロンプトインジェクション 2025.02.18 文献データベース
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing Authors: Yi Wang, Fenghua Weng, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang | Published: 2025-02-17 | Updated: 2025-05-29 LLMセキュリティプロンプトインジェクション防御手法 2025.02.17 文献データベース