Defense Mechanism

Efficient Jailbreak Mitigation Using Semantic Linear Classification in a Multi-Staged Pipeline

Authors: Akshaj Prashanth Rao, Advait Singh, Saumya Kumaar Saksena, Dhruv Kumar | Published: 2025-12-22

Prompt Injection

Watermark

Defense Mechanism

2025.12.22 2025.12.24

Literature Database

Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning

Authors: Baogang Song, Dongdong Zhao, Jianwen Xiang, Qiben Xu, Zizhuo Yu | Published: 2025-10-15

Backdoor Attack

Model Protection Methods

Defense Mechanism

2025.10.15 2025.10.17

Literature Database

PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities

Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13

Security Analysis Method

Large Language Model

Defense Mechanism

2025.10.13 2025.10.15

Literature Database

CoSPED: Consistent Soft Prompt Targeted Data Extraction and Defense

Authors: Yang Zhuochen, Fok Kar Wai, Thing Vrizlynn | Published: 2025-10-13

Privacy Enhancing Technology

Improvement of Learning

Defense Mechanism

2025.10.13 2025.10.15

Literature Database

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Authors: Tianze Wang, Zhaoyu Chen, Jian Du, Yingtai Xiao, Linjun Zhang, Qiang Yan | Published: 2025-10-13

Data Protection Method

Privacy Enhancing Technology

Defense Mechanism

2025.10.13 2025.10.15

Literature Database

Adversarial Robustness in One-Stage Learning-to-Defer

Authors: Yannis Montreuil, Letian Yu, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi | Published: 2025-10-13

Robustness

Adversarial Learning

Defense Mechanism

2025.10.13 2025.10.15

Literature Database

A Novel Ensemble Learning Approach for Enhanced IoT Attack Detection: Redefining Security Paradigms in Connected Systems

Authors: Hikmat A. M. Abdeljaber, Md. Alamgir Hossain, Sultan Ahmad, Ahmed Alsanad, Md Alimul Haque, Sudan Jha, Jabeen Nazeer | Published: 2025-10-09

IoT Security Challenges

Defense Mechanism

Defense Effectiveness Analysis

2025.10.09 2025.10.11

Literature Database

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

Authors: Weisen Jiang, Sinno Jialin Pan | Published: 2025-10-09

Prompt Injection

Robustness

Defense Mechanism

2025.10.09 2025.10.11

Literature Database

Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach

Authors: Xiangfang Li, Yu Wang, Bo Li | Published: 2025-10-01 | Updated: 2025-10-09

Indirect Prompt Injection

Prompt leaking

Defense Mechanism

2025.10.01 2025.10.11

Literature Database

Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment

Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son | Published: 2025-09-26 | Updated: 2025-10-09

Bias Detection in AI Output

Robustness

Defense Mechanism

2025.09.26 2025.10.11

Literature Database