Bias Detection in AI Output

In-Context Probing for Membership Inference in Fine-Tuned Language Models

Authors: Zhexi Lu, Hongliang Chi, Nathalie Baracaldo, Swanand Ravindra Kadhe, Yuseok Jeon, Lei Yu | Published: 2025-12-18

Privacy-Preserving Machine Learning

Prompt leaking

2025.12.18 2025.12.20

Literature Database

LLM-Assisted Web Measurements

Authors: Simone Bozzolan, Stefano Calzavara, Lorenzo Cazzaro | Published: 2025-10-09

Bias Detection in AI Output

Application Classification Method

Prompt Injection

2025.10.09 2025.10.11

Literature Database

Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment

Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son | Published: 2025-09-26 | Updated: 2025-10-09

Bias Detection in AI Output

Robustness

Defense Mechanism

2025.09.26 2025.10.11

Literature Database

A Large Language Model-Supported Threat Modeling Framework for Transportation Cyber-Physical Systems

Authors: M Sabbir Salek, Mashrur Chowdhury, Muhaimin Bin Munir, Yuchen Cai, Mohammad Imtiaz Hasan, Jean-Michel Tine, Latifur Khan, Mizanur Rahman | Published: 2025-06-01 | Updated: 2025-07-28

Bias Detection in AI Output

Poisoning attack on RAG

Vulnerability Assessment Method

2025.06.01 2025.07.30

Literature Database

Unlearning Isn’t Deletion: Investigating Reversibility of Machine Unlearning in LLMs

Authors: Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du | Published: 2025-05-22

Bias Detection in AI Output

Privacy Management

Machine learning

2025.05.22 2025.05.28

Literature Database

R1dacted: Investigating Local Censorship in DeepSeek’s R1 Language Model

Authors: Ali Naseh, Harsh Chaudhari, Jaechul Roh, Mingshi Wu, Alina Oprea, Amir Houmansadr | Published: 2025-05-19

Bias Detection in AI Output

Prompt leaking

検閲行動

2025.05.19 2025.05.28

Literature Database

Elevating Cyber Threat Intelligence against Disinformation Campaigns with LLM-based Concept Extraction and the FakeCTI Dataset

Authors: Domenico Cotroneo, Roberto Natella, Vittorio Orbinato | Published: 2025-05-06

Bias Detection in AI Output

Detection of Misinformation

Information Extraction Method

2025.05.06 2025.05.27

Literature Database

LLM-Based Threat Detection and Prevention Framework for IoT Ecosystems

Authors: Yazan Otoum, Arghavan Asad, Amiya Nayak | Published: 2025-05-01 | Updated: 2025-05-13

Bias Detection in AI Output

LLM Performance Evaluation

Prompt Injection

2025.05.01 2025.05.27

Literature Database

Synthesizing Access Control Policies using Large Language Models

Authors: Adarsh Vatsa, Pratyush Patel, William Eiers | Published: 2025-03-14

Bias Detection in AI Output

Data Generation Method

Privacy Design Principles

2025.03.14 2025.05.27

Literature Database

PriFFT: Privacy-preserving Federated Fine-tuning of Large Language Models via Hybrid Secret Sharing

Authors: Zhichao You, Xuewen Dong, Ke Cheng, Xutong Mu, Jiaxuan Fu, Shiyang Ma, Qiang Qu, Yulong Shen | Published: 2025-03-05 | Updated: 2025-05-14

Bias Detection in AI Output

Privacy Design Principles

Cryptography

2025.03.05 2025.05.28

Literature Database