Detecting LLM-Written Peer Reviews Authors: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah | Published: 2025-03-20 プロンプトインジェクション生成AI向け電子透かし透かし設計 2025.03.20 2025.04.03 文献データベース
Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings Authors: Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, Dacheng Tao | Published: 2025-03-19 プロンプトインジェクション大規模言語モデル攻撃手法 2025.03.19 2025.04.03 文献データベース
Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models Authors: Prashant Kulkarni, Assaf Namer | Published: 2025-03-18 プロンプトインジェクションプロンプトリーキング攻撃手法 2025.03.18 2025.04.03 文献データベース
MirrorGuard: Adaptive Defense Against Jailbreaks via Entropy-Guided Mirror Crafting Authors: Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang | Published: 2025-03-17 プロンプトインジェクション大規模言語モデル攻撃手法 2025.03.17 2025.04.03 文献データベース
Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification Authors: Yingjie Zhang, Tong Liu, Zhe Zhao, Guozhu Meng, Kai Chen | Published: 2025-03-14 LLMの安全機構の解除プロンプトインジェクション悪意のあるプロンプト 2025.03.14 2025.04.03 文献データベース
CyberLLMInstruct: A Pseudo-malicious Dataset Revealing Safety-performance Trade-offs in Cyber Security LLM Fine-tuning Authors: Adel ElZemity, Budi Arief, Shujun Li | Published: 2025-03-12 | Updated: 2025-09-17 LLMの安全機構の解除セキュリティ分析プロンプトインジェクション 2025.03.12 文献データベース
Probabilistic Modeling of Jailbreak on Multimodal LLMs: From Quantification to Application Authors: Wenzhuo Xu, Zhipeng Wei, Xiongtao Sun, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou | Published: 2025-03-10 | Updated: 2025-07-31 プロンプトインジェクション大規模言語モデル透かし技術の堅牢性 2025.03.10 文献データベース
Improving LLM Safety Alignment with Dual-Objective Optimization Authors: Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song | Published: 2025-03-05 | Updated: 2025-06-12 プロンプトインジェクションロバスト性向上手法安全性と有用性のトレードオフ 2025.03.05 文献データベース
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks Authors: Hanjiang Hu, Alexander Robey, Changliu Liu | Published: 2025-02-28 | Updated: 2025-08-25 バックドア攻撃プロンプトインジェクション透かし 2025.02.28 文献データベース
Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs Authors: Shiyu Xiang, Ansen Zhang, Yanfei Cao, Yang Fan, Ronghao Chen | Published: 2025-02-26 | Updated: 2025-05-28 LLMセキュリティプロンプトインジェクション攻撃の評価 2025.02.26 文献データベース