Prompt Injection

Exploring the Limits of ChatGPT in Software Security Applications

Authors: Fangzhou Wu, Qingzhao Zhang, Ati Priya Bajaj, Tiffany Bao, Ning Zhang, Ruoyu "Fish" Wang, Chaowei Xiao | Published: 2023-12-08

Program Analysis

Prompt Injection

Vulnerability Management

2023.12.08 2025.05.28

Literature Database

Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs

Authors: Zhuo Zhang, Guangyu Shen, Guanhong Tao, Siyuan Cheng, Xiangyu Zhang | Published: 2023-12-08

LLM Security

Prompt Injection

Inappropriate Content Generation

2023.12.08 2025.05.28

Literature Database

DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions

Authors: Fangzhou Wu, Xiaogeng Liu, Chaowei Xiao | Published: 2023-12-07 | Updated: 2023-12-12

LLM Security

Code Generation

Prompt Injection

2023.12.07 2025.05.28

Literature Database

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models

Authors: Manish Bhatt, Sahana Chennabasappa, Cyrus Nikolaidis, Shengye Wan, Ivan Evtimov, Dominik Gabi, Daniel Song, Faizan Ahmad, Cornelius Aschermann, Lorenzo Fontana, Sasha Frolov, Ravi Prakash Giri, Dhaval Kapil, Yiannis Kozyrakis, David LeBlanc, James Milazzo, Aleksandar Straumann, Gabriel Synnaeve, Varun Vontimitta, Spencer Whitman, Joshua Saxe | Published: 2023-12-07

LLM Security

Cybersecurity

Prompt Injection

2023.12.07 2025.05.28

Literature Database

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs

Authors: Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek | Published: 2023-12-06 | Updated: 2024-10-07

Character Role Acting

Prompt Injection

Poisoning

2023.12.06 2025.05.28

Literature Database

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

Authors: Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi | Published: 2023-12-04 | Updated: 2024-10-31

Query Generation Method

Prompt Injection

Watermark Evaluation

2023.12.04 2025.05.28

Literature Database

The Philosopher’s Stone: Trojaning Plugins of Large Language Models

Authors: Tian Dong, Minhui Xue, Guoxing Chen, Rayne Holland, Yan Meng, Shaofeng Li, Zhen Liu, Haojin Zhu | Published: 2023-12-01 | Updated: 2024-09-11

Prompt Injection

Poisoning

Poisoning Attack

2023.12.01 2025.05.28

Literature Database

Mark My Words: Analyzing and Evaluating Language Model Watermarks

Authors: Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner | Published: 2023-12-01 | Updated: 2024-10-11

Prompt Injection

Watermark Robustness

Watermark Evaluation

2023.12.01 2025.05.28

Literature Database

Scalable Extraction of Training Data from (Production) Language Models

Authors: Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr, Katherine Lee | Published: 2023-11-28

Data Leakage

Training Data Extraction Method

Prompt Injection

2023.11.28 2025.05.28

Literature Database

Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles

Authors: Sonali Singh, Faranak Abri, Akbar Siami Namin | Published: 2023-11-24

Abuse of AI Chatbots

Prompt Injection

Psychological Manipulation

2023.11.24 2025.05.28

Literature Database