悪意のあるプロンプト

Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization

Authors: Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang | Published: 2025-11-24

プロンプトインジェクション

大規模言語モデル

悪意のあるプロンプト

2025.11.24

文献データベース

Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation

Authors: Junbo Zhang, Ran Chen, Qianli Zhou, Xinyang Deng, Wen Jiang | Published: 2025-11-24

LLMの安全機構の解除

プロンプトインジェクション

悪意のあるプロンプト

2025.11.24

文献データベース

Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations

Authors: Ryan Wong, Hosea David Yu Fei Ng, Dhananjai Sharma, Glenn Jun Jie Ng, Kavishvaran Srinivasan | Published: 2025-11-24

倫理的考慮

大規模言語モデル

悪意のあるプロンプト

2025.11.24

文献データベース

RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation

Authors: Benyamin Tafreshian | Published: 2025-11-24

インダイレクトプロンプトインジェクション

プロンプトリーキング

悪意のあるプロンプト

2025.11.24

文献データベース

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Authors: Huseein Jawad, Nicolas Brunel | Published: 2025-11-20

プライバシー保護データマイニング

プロンプトリーキング

悪意のあるプロンプト

2025.11.20

文献データベース

Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security

Authors: Hajun Kim, Hyunsik Na, Daeseon Choi | Published: 2025-11-18

プロンプトエンジニアリング

大規模言語モデル

悪意のあるプロンプト

2025.11.18

文献データベース

SGuard-v1: Safety Guardrail for Large Language Models

Authors: JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok | Published: 2025-11-16

プロンプトインジェクション

悪意のあるプロンプト

適応型誤用検出

2025.11.16

文献データベース

Better Privilege Separation for Agents by Restricting Data Types

Authors: Dennis Jacob, Emad Alghamdi, Zhanhao Hu, Basel Alomair, David Wagner | Published: 2025-09-30

インダイレクトプロンプトインジェクション

セキュリティ戦略生成

悪意のあるプロンプト

2025.09.30

文献データベース

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

Authors: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng | Published: 2025-06-14 | Updated: 2025-09-30

アライメント

倫理声明

悪意のあるプロンプト

2025.06.14

文献データベース

STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models

Authors: Xunguang Wang, Wenxuan Wang, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang | Published: 2025-03-23

プロンプトインジェクション

悪意のあるプロンプト

防御手法の効果分析

2025.03.23 2025.04.03

文献データベース