バイアス緩和手法

Unified Threat Detection and Mitigation Framework (UTDMF): Combating Prompt Injection, Deception, and Bias in Enterprise-Scale Transformers

Authors: Santhosh KumarRavindran | Published: 2025-10-06
インダイレクトプロンプトインジェクション
バイアス緩和手法
防御手法の統合

Uncovering Vulnerabilities of LLM-Assisted Cyber Threat Intelligence

Authors: Yuqiao Meng, Luoxi Tang, Feiyang Yu, Jinyuan Jia, Guanhua Yan, Ping Yang, Zhaohan Xi | Published: 2025-09-28 | Updated: 2025-10-01
インダイレクトプロンプトインジェクション
バイアス緩和手法
脆弱性予測

Phare: A Safety Probe for Large Language Models

Authors: Pierre Le Jeune, Benoît Malézieux, Weixuan Xiao, Matteo Dora | Published: 2025-05-16 | Updated: 2025-05-19
RAG
バイアス緩和手法
ハルシネーション

ELEGANT: Certified Defense on the Fairness of Graph Neural Networks

Authors: Yushun Dong, Binchi Zhang, Hanghang Tong, Jundong Li | Published: 2023-11-05
GNN
バイアス緩和手法
プロンプトインジェクション

Data Privacy and Trustworthy Machine Learning

Authors: Martin Strobel, Reza Shokri | Published: 2022-09-14
バイアス緩和手法
プライバシーリスク管理
メンバーシップ推論

To be Robust or to be Fair: Towards Fairness in Adversarial Training

Authors: Han Xu, Xiaorui Liu, Yaxin Li, Anil K. Jain, Jiliang Tang | Published: 2020-10-13 | Updated: 2021-05-18
バイアス緩和手法
公平性の確保
敵対的訓練