Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang | Published: 2025-11-24 プロンプトインジェクション大規模言語モデル悪意のあるプロンプト 2025.11.24 文献データベース
Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24 LLMの安全機構の解除プロンプトインジェクション悪意のあるプロンプト 2025.11.24 文献データベース
Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan | Published: 2025-11-24 倫理的考慮大規模言語モデル悪意のあるプロンプト 2025.11.24 文献データベース
RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation Authors: Benyamin Tafreshian | Published: 2025-11-24 インダイレクトプロンプトインジェクションプロンプトリーキング悪意のあるプロンプト 2025.11.24 文献データベース
PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization Authors: Huseein Jawad, Nicolas Brunel | Published: 2025-11-20 プライバシー保護データマイニングプロンプトリーキング悪意のあるプロンプト 2025.11.20 文献データベース
Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security Authors: Hajun Kim, Hyunsik Na, Daeseon Choi | Published: 2025-11-18 プロンプトエンジニアリング大規模言語モデル悪意のあるプロンプト 2025.11.18 文献データベース
SGuard-v1: Safety Guardrail for Large Language Models Authors: JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok | Published: 2025-11-16 プロンプトインジェクション悪意のあるプロンプト適応型誤用検出 2025.11.16 文献データベース
Better Privilege Separation for Agents by Restricting Data Types Authors: Dennis Jacob, Emad Alghamdi, Zhanhao Hu, Basel Alomair, David Wagner | Published: 2025-09-30 インダイレクトプロンプトインジェクションセキュリティ戦略生成悪意のあるプロンプト 2025.09.30 文献データベース
QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety Authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng | Published: 2025-06-14 | Updated: 2025-09-30 アライメント倫理声明悪意のあるプロンプト 2025.06.14 文献データベース
STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models Authors: Xunguang Wang, Wenxuan Wang, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang | Published: 2025-03-23 プロンプトインジェクション悪意のあるプロンプト防御手法の効果分析 2025.03.23 2025.04.03 文献データベース