Prompt Injection

Efficient Detection of Toxic Prompts in Large Language Models

Authors: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu | Published: 2024-08-21 | Updated: 2024-09-14

Content Moderation

Prompt Injection

Model Performance Evaluation

2024.08.21 2025.05.27

Literature Database

EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models

Authors: Chongwen Zhao, Zhihao Dou, Kaizhu Huang | Published: 2024-08-21

LLM Security

Prompt Injection

Defense Method

2024.08.21 2025.05.27

Literature Database

Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Carrier Articles

Authors: Zhilong Wang, Haizhou Wang, Nanqing Luo, Lan Zhang, Xiaoyan Sun, Yebo Cao, Peng Liu | Published: 2024-08-20 | Updated: 2025-02-07

Prompt Injection

Large Language Model

Attack Scenario Analysis

2024.08.20 2025.05.27

Literature Database

Security Attacks on LLM-based Code Completion Tools

Authors: Wen Cheng, Ke Sun, Xinyu Zhang, Wei Wang | Published: 2024-08-20 | Updated: 2025-01-02

LLM Security

Prompt Injection

Attack Method

2024.08.20 2025.05.27

Literature Database

LeCov: Multi-level Testing Criteria for Large Language Models

Authors: Xuan Xie, Jiayang Song, Yuheng Huang, Da Song, Fuyuan Zhang, Felix Juefei-Xu, Lei Ma | Published: 2024-08-20

LLM Performance Evaluation

Test Prioritization

Prompt Injection

2024.08.20 2025.05.27

Literature Database

Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning

Authors: Tiansheng Huang, Gautam Bhattacharya, Pratik Joshi, Josh Kimball, Ling Liu | Published: 2024-08-18 | Updated: 2024-09-03

LLM Security

Prompt Injection

Safety Alignment

2024.08.18 2025.05.27

Literature Database

MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

Authors: Wenjie Fu, Huandong Wang, Chen Gao, Guanghua Liu, Yong Li, Tao Jiang | Published: 2024-08-16

LLM Security

Prompt Injection

Membership Inference

2024.08.16 2025.05.27

Literature Database

PatUntrack: Automated Generating Patch Examples for Issue Reports without Tracked Insecure Code

Authors: Ziyou Jiang, Lin Shi, Guowei Yang, Qing Wang | Published: 2024-08-16

Code Generation

Prompt Injection

Vulnerability Management

2024.08.16 2025.05.27

Literature Database

DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts

Authors: Xiongtao Sun, Gan Liu, Zhipeng He, Hui Li, Xiaoguang Li | Published: 2024-08-16

LLM Security

Privacy Protection Method

Prompt Injection

2024.08.16 2025.05.27

Literature Database

Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks

Authors: Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Weiming Zhang | Published: 2024-08-15 | Updated: 2024-08-22

LLM Security

Prompt Injection

Defense Method

2024.08.15 2025.05.27

Literature Database