Bias in Training Data

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Authors: Yanbo Wang, Jiyang Guan, Jian Liang, Ran He | Published: 2025-04-14

Prompt Injection

Bias in Training Data

Safety Alignment

2025.04.14 2025.05.27

Literature Database

DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

Authors: A B M Ashikur Rahman, Saeed Anwar, Muhammad Usman, Ajmal Mian | Published: 2024-06-13

Hallucination

Model Evaluation

Bias in Training Data

2024.06.13 2025.05.27

Literature Database

The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”

Authors: Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans | Published: 2023-09-21 | Updated: 2024-05-26

Hallucination

Model Evaluation

Bias in Training Data

2023.09.21 2025.05.28

Literature Database

Algorithmic Bias in Recidivism Prediction: A Causal Perspective

Authors: Aria Khademi, Vasant Honavar | Published: 2019-11-24

Algorithm

Bias Elimination in Training Data

Bias in Training Data

2019.11.24 2025.05.28

Literature Database

No Classification without Representation: Assessing Geodiversity Issues in Open Data Sets for the Developing World

Authors: Shreya Shankar, Yoni Halpern, Eric Breck, James Atwood, Jimbo Wilson, D. Sculley | Published: 2017-11-22

Data Generation

Bias Elimination in Training Data

Bias in Training Data

2017.11.22 2025.05.28

Literature Database

Predicting Exploitation of Disclosed Software Vulnerabilities Using Open-source Data

Authors: Benjamin L. Bullough, Anna K. Yanchenko, Christopher L. Smith, Joseph R. Zipkin | Published: 2017-07-25

Bias in Training Data

Information Security

Machine Learning Framework

2017.07.25 2025.05.28

Literature Database

Optimized Data Pre-Processing for Discrimination Prevention

Authors: Flavio P. Calmon, Dennis Wei, Karthikeyan Natesan Ramamurthy, Kush R. Varshney | Published: 2017-04-11

Fairness Learning

Creation of Fair AI Models

Bias in Training Data

2017.04.11 2025.05.28

Literature Database