Prompt Injection

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

Authors: Dominik Meier, Jan Philip Wahle, Paul Röttger, Terry Ruas, Bela Gipp | Published: 2025-05-26

Prompt Injection

Model Extraction Attack

Watermarking Technology

2025.05.26 2025.05.28

Literature Database

What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs

Authors: Sangyeop Kim, Yohan Lee, Yongwoo Song, Kimin Lee | Published: 2025-05-26

Prompt Injection

Model Performance Evaluation

Large Language Model

2025.05.26 2025.05.28

Literature Database

Security Concerns for Large Language Models: A Survey

Authors: Miles Q. Li, Benjamin C. M. Fung | Published: 2025-05-24 | Updated: 2025-08-20

Indirect Prompt Injection

Prompt Injection

Psychological Manipulation

2025.05.24 2025.08.22

Literature Database

Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models

Authors: Junjie Xiong, Changjia Zhu, Shuhang Lin, Chong Zhang, Yongfeng Zhang, Yao Liu, Lingyao Li | Published: 2025-05-22

LLM Security

Disabling Safety Mechanisms of LLM

Prompt Injection

2025.05.22 2025.05.28

Literature Database

CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework

Authors: Viet Pham, Thai Le | Published: 2025-05-22

LLM Security

Prompt Injection

Adversarial Learning

2025.05.22 2025.05.28

Literature Database

When Safety Detectors Aren’t Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques

Authors: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu | Published: 2025-05-22

Disabling Safety Mechanisms of LLM

Prompt Injection

Watermark Removal Technology

2025.05.22 2025.05.28

Literature Database

BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models

Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22

LLM Security

Text Generation Method

Prompt Injection

2025.05.22 2025.05.28

Literature Database

Finetuning-Activated Backdoors in LLMs

Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22

LLM Security

Backdoor Attack

Prompt Injection

2025.05.22 2025.05.28

Literature Database

DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection

Authors: Yuliang Yan, Haochun Tang, Shuo Yan, Enyan Dai | Published: 2025-05-22

Fingerprinting Method

Prompt Injection

Model Identification

2025.05.22 2025.05.28

Literature Database

Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses

Authors: Xiaoxue Yang, Bozhidar Stevanoski, Matthieu Meeus, Yves-Alexandre de Montjoye | Published: 2025-05-21

Alignment

Prompt Injection

Defense Mechanism

2025.05.21 2025.05.28

Literature Database