Disabling Safety Mechanisms of LLM

Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift

Authors: Shuai Yuan, Zhibo Zhang, Yuxi Li, Guangdong Bai, Wang Kailong | Published: 2025-09-08

Calculation of Output Harmfulness

Attack Detection Method

2025.09.08 2025.09.10

Literature Database

EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint

Authors: Zhenhua Xu, Meng Han, Wenpeng Xing | Published: 2025-09-03

Disabling Safety Mechanisms of LLM

Data Protection Method

Prompt validation

2025.09.03 2025.09.05

Literature Database

Consiglieres in the Shadow: Understanding the Use of Uncensored Large Language Models in Cybercrimes

Authors: Zilong Lin, Zichuan Li, Xiaojing Liao, XiaoFeng Wang | Published: 2025-08-18

Disabling Safety Mechanisms of LLM

Data Generation Method

Calculation of Output Harmfulness

2025.08.18 2025.08.20

Literature Database

PRISON: Unmasking the Criminal Potential of Large Language Models

Authors: Xinyi Wu, Geng Hong, Pei Chen, Yueyue Chen, Xudong Pan, Min Yang | Published: 2025-06-19 | Updated: 2025-08-04

Disabling Safety Mechanisms of LLM

法執行回避

Research Methodology

2025.06.19 2025.08.06

Literature Database

LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge

Authors: Songze Li, Chuokun Xu, Jiaying Wang, Xueluan Gong, Chen Chen, Jirui Zhang, Jun Wang, Kwok-Yan Lam, Shouling Ji | Published: 2025-06-11

Disabling Safety Mechanisms of LLM

Prompt Injection

Adversarial attack

2025.06.11 2025.06.13

Literature Database

Privacy and Security Threat for OpenAI GPTs

Authors: Wei Wenying, Zhao Kaifa, Xue Lei, Fan Ming | Published: 2025-06-04

Disabling Safety Mechanisms of LLM

Privacy Issues

Defense Mechanism

2025.06.04 2025.06.06

Literature Database

BitBypass: A New Direction in Jailbreaking Aligned Large Language Models with Bitstream Camouflage

Authors: Kalyan Nakka, Nitesh Saxena | Published: 2025-06-03

Disabling Safety Mechanisms of LLM

Detection Rate of Phishing Attacks

Prompt Injection

2025.06.03 2025.06.05

Literature Database

Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space

Authors: Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei | Published: 2025-05-27

Disabling Safety Mechanisms of LLM

Prompt Injection

Attack Evaluation

2025.05.27 2025.05.29

Literature Database

Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models

Authors: Junjie Xiong, Changjia Zhu, Shuhang Lin, Chong Zhang, Yongfeng Zhang, Yao Liu, Lingyao Li | Published: 2025-05-22

LLM Security

Disabling Safety Mechanisms of LLM

Prompt Injection

2025.05.22 2025.05.28

Literature Database

When Safety Detectors Aren’t Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques

Authors: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu | Published: 2025-05-22

Disabling Safety Mechanisms of LLM

Prompt Injection

Watermark Removal Technology

2025.05.22 2025.05.28

Literature Database