AIセキュリティマップにマッピングされた情報システム的側面における負の影響「AIの出力に隔たりが発生」をもたらす攻撃・要因、それに対する防御手法・対策、および対象のAI技術・タスク・データを示しています。また、関連する外部作用的側面の要素も示しています。
攻撃・要因
- 完全性の毀損
- 学習データの偏り
防御手法・対策
- 完全性の防御手法
- AIによる出力のバイアスの検出
- 学習データのバイアス排除
- 公平性のあるAIモデルの作成
対象のAI技術
- 全てのAI技術
タスク
- 分類
- 生成
対象のデータ
- 画像
- グラフ
- テキスト
- 音声
関連する外部作用的側面
参考文献
学習データの偏り
AIによる出力のバイアスの検出
- Measuring Bias in Contextualized Word Representations, 2019
- Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases, 2021
- Toxicity Detection with Generative Prompt-based Inference, 2022
- Gender bias and stereotypes in Large Language Models, 2023
- Measuring Implicit Bias in Explicitly Unbiased Large Language Models, 2024
- Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models, 2024
学習データのバイアス排除
- A Deeper Look at Dataset Bias, 2015
- MSeg: A Composite Dataset for Multi-domain Semantic Segmentation, 2020
- Identifying Statistical Bias in Dataset Replication, 2020
- Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP, 2022
- A Decade’s Battle on Dataset Bias: Are We There Yet?, 2025
公平性のあるAIモデルの作成
- Equality of Opportunity in Supervised Learning, 2016
- Counterfactual Fairness, 2017
- Optimized Data Pre-Processing for Discrimination Prevention, 2017
- FairGAN: Fairness-aware Generative Adversarial Networks, 2018
- Towards Debiasing Sentence Representations, 2020
- Debiasing Pre-trained Contextualised Embeddings, 2021
- ADEPT: A DEbiasing PrompT Framework, 2023