AIセキュリティマップにマッピングされた外部作用的側面における負の影響「AIによる非倫理的な出力や動作」のセキュリティ対象、それをもたらす攻撃・要因、および防御手法・対策を示しています。
セキュリティ対象
- 非消費者
- 消費者
- 社会
攻撃・要因
- 完全性の毀損
- LLMの安全機構の解除
防御手法・対策
- 教育やフォローアップ
- アライメント
- モデルの公平性評価
- LLMガードレール
- AIによる出力のバイアスの検出
- データキュレーション
- 公平性のあるAIモデルの作成
- 要因となる要素の毀損を防ぐ対策
開発・活用における適用フェーズ
1. データ収集・前処理
- データキュレーション
2. モデルの選定・学習・検証
- アライメント
- モデルの公平性評価
- 公平性のあるAIモデルの作成
3. システムの実装
- LLMガードレール
4. システムの提供・運用・保守
- AIによる出力のバイアスの検出
5. システムの利用
- 教育やフォローアップ
参考文献
LLMの安全機構の解除
教育やフォローアップ
- What Students Can Learn About Artificial Intelligence — Recommendations for K-12 Computing Education, 2022.0
- Learning to Prompt in the Classroom to Understand AI Limits: A pilot study, 2023.0
- Evaluating the Effectiveness of LLMs in Introductory Computer Science Education: A Semester-Long Field Study, 2024.0
- The Essentials of AI for Life and Society: An AI Literacy Course for the University Community, 2025.0
アライメント
- Training language models to follow instructions with human feedback, 2022.0
- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, 2022.0
- Constitutional AI: Harmlessness from AI Feedback, 2022.0
- Direct Preference Optimization: Your Language Model is Secretly a Reward Model, 2023.0
- A General Theoretical Paradigm to Understand Learning from Human Preferences, 2023.0
- RRHF: Rank Responses to Align Language Models with Human Feedback without tears, 2023.0
- Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, 2023.0
- Self-Rewarding Language Models, 2024.0
- KTO: Model Alignment as Prospect Theoretic Optimization, 2024.0
- SimPO: Simple Preference Optimization with a Reference-Free Reward, 2024.0
モデルの公平性評価
LLMガードレール
AIによる出力のバイアスの検出
- Measuring Bias in Contextualized Word Representations, 2019.0
- Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases, 2021.0
- Toxicity Detection with Generative Prompt-based Inference, 2022.0
- Gender bias and stereotypes in Large Language Models, 2023.0
- Measuring Implicit Bias in Explicitly Unbiased Large Language Models, 2024.0
- Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models, 2024.0
データキュレーション
公平性のあるAIモデルの作成
- Equality of Opportunity in Supervised Learning, 2016.0
- Counterfactual Fairness, 2017.0
- Optimized Data Pre-Processing for Discrimination Prevention, 2017.0
- FairGAN: Fairness-aware Generative Adversarial Networks, 2018.0
- Towards Debiasing Sentence Representations, 2020.0
- Debiasing Pre-trained Contextualised Embeddings, 2021.0
- ADEPT: A DEbiasing PrompT Framework, 2023.0
