AIによる出力のバイアスの検出

Synthesizing Access Control Policies using Large Language Models

Authors: Adarsh Vatsa, Pratyush Patel, William Eiers | Published: 2025-03-14
AIによる出力のバイアスの検出
データ生成手法
プライバシー設計原則

Measuring Implicit Bias in Explicitly Unbiased Large Language Models

Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths | Published: 2024-02-06 | Updated: 2024-05-23
AIによる出力のバイアスの検出
アルゴリズムの公平性
大規模言語モデル

Gender bias and stereotypes in Large Language Models

Authors: Hadas Kotek, Rikker Dockum, David Q. Sun | Published: 2023-08-28
AIによる出力のバイアスの検出
アルゴリズムの公平性
大規模言語モデル

ADEPT: A DEbiasing PrompT Framework

Authors: Ke Yang, Charles Yu, Yi Fung, Manling Li, Heng Ji | Published: 2022-11-10 | Updated: 2022-12-23
AIによる出力のバイアスの検出
プロンプティング戦略
公平性のあるAIモデルの作成

Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases

Authors: Shrimai Prabhumoye, Rafal Kocielnik, Mohammad Shoeybi, Anima Anandkumar, Bryan Catanzaro | Published: 2021-12-15 | Updated: 2022-04-15
AIによる出力のバイアスの検出
Few-Shot Learning
大規模言語モデル

Debiasing Pre-trained Contextualised Embeddings

Authors: Masahiro Kaneko, Danushka Bollegala | Published: 2021-01-23
AIによる出力のバイアスの検出
公平性のあるAIモデルの作成
深層学習手法

Towards Debiasing Sentence Representations

Authors: Paul Pu Liang, Irene Mengze Li, Emily Zheng, Yao Chong Lim, Ruslan Salakhutdinov, Louis-Philippe Morency | Published: 2020-07-16
AIによる出力のバイアスの検出
アルゴリズムの公平性
公平性のあるAIモデルの作成

Measuring Bias in Contextualized Word Representations

Authors: Keita Kurita, Nidhi Vyas, Ayush Pareek, Alan W Black, Yulia Tsvetkov | Published: 2019-06-18
AIによる出力のバイアスの検出
アルゴリズムの公平性
大規模言語モデル