AIセキュリティマップにマッピングされた情報システム的側面における負の影響「有害な応答の出力」をもたらす攻撃・要因、それに対する防御手法・対策、および対象のAI技術・タスク・データを示しています。また、関連する外部作用的側面の要素も示しています。
攻撃・要因
防御手法・対策
対象のAI技術
- LLM
タスク
- 生成
対象のデータ
- テキスト
関連する外部作用的側面
参考文献
プロンプトインジェクション
- Universal and Transferable Adversarial Attacks on Aligned Language Models, 2023
- Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models, 2023
- Jailbroken: How Does LLM Safety Training Fail?, 2023
- Gptfuzzer: Red teaming large language models with auto-generated jailbreak prompts, 2023
- Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation, 2023
- Token-level adversarial prompt detection based on perplexity measures and contextual information, 2023
- AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models, 2024
- A novel and universal fuzzing framework for proactively discovering jailbreak vulnerabilities in large language models, 2024
- Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles, 2024