AIセキュリティマップにマッピングされた外部作用的側面における負の影響「AIの出力の偏りにより、人が仕事や生活の機会を喪失」のセキュリティ対象、それをもたらす攻撃・要因、および防御手法・対策を示しています。
セキュリティ対象
- 消費者
攻撃・要因
- 完全性の毀損
- 制御可能性の毀損
- 出力の公平性の毀損
防御手法・対策
- ヒューマンインザループ
- モデルの公平性評価
- AIによる出力のバイアスの検出
- 学習データのバイアス排除
- 公平性のあるAIモデルの作成
- 要因となる要素の毀損を防ぐ対策
AIシステムの開発フェーズにおける防御手法
1. データ収集・前処理
- 学習データのバイアス排除
2. モデルの選定・学習・検証
- ヒューマンインザループ
- モデルの公平性評価
- 公平性のあるAIモデルの作成
3. システムの実装
4. システムの提供・運用・保守
- ヒューマンインザループ
- AIによる出力のバイアスの検出
5. システムの利用
参考文献
ヒューマンインザループ
モデルの公平性評価
AIによる出力のバイアスの検出
- Measuring Bias in Contextualized Word Representations, 2019.0
- Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases, 2021.0
- Toxicity Detection with Generative Prompt-based Inference, 2022.0
- Gender bias and stereotypes in Large Language Models, 2023.0
- Measuring Implicit Bias in Explicitly Unbiased Large Language Models, 2024.0
- Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models, 2024.0
学習データのバイアス排除
- A Deeper Look at Dataset Bias, 2015.0
- MSeg: A Composite Dataset for Multi-domain Semantic Segmentation, 2020.0
- Identifying Statistical Bias in Dataset Replication, 2020.0
- Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP, 2022.0
- A Decade’s Battle on Dataset Bias: Are We There Yet?, 2025.0
公平性のあるAIモデルの作成
- Equality of Opportunity in Supervised Learning, 2016.0
- Counterfactual Fairness, 2017.0
- Optimized Data Pre-Processing for Discrimination Prevention, 2017.0
- FairGAN: Fairness-aware Generative Adversarial Networks, 2018.0
- Towards Debiasing Sentence Representations, 2020.0
- Debiasing Pre-trained Contextualised Embeddings, 2021.0
- ADEPT: A DEbiasing PrompT Framework, 2023.0
