AIセキュリティマップにマッピングされた外部作用的側面における負の影響「AIの出力の偏りにより、人が仕事や生活の機会を喪失」のセキュリティ対象、それをもたらす攻撃・要因、および防御手法・対策を示しています。
セキュリティ対象
- 消費者
攻撃・要因
- 完全性の毀損
- 制御可能性の毀損
- 出力の公平性の毀損
防御手法・対策
- 完全性の防御手法
- ヒューマンインザループ
- 出力の公平性の対策
- AIによる出力のバイアスの検出
参考文献
ヒューマンインザループ
AIによる出力のバイアスの検出
- Measuring Bias in Contextualized Word Representations, 2019
- Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases, 2021
- Toxicity Detection with Generative Prompt-based Inference, 2022
- Gender bias and stereotypes in Large Language Models, 2023
- Measuring Implicit Bias in Explicitly Unbiased Large Language Models, 2024
- Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models, 2024