プロンプトインジェクション

Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition

Authors: Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-François Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost, Christopher Carnahan, Jordan Boyd-Graber | Published: 2023-10-24 | Updated: 2024-03-03
テキスト生成手法
プロンプトインジェクション
攻撃手法

SoK: Memorization in General-Purpose Large Language Models

Authors: Valentin Hartmann, Anshuman Suri, Vincent Bindschaedler, David Evans, Shruti Tople, Robert West | Published: 2023-10-24
プライバシー手法
プロンプトインジェクション
メモリゼーションの測定

AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models

Authors: Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang, Furong Huang, Ani Nenkova, Tong Sun | Published: 2023-10-23 | Updated: 2023-12-14
プロンプトインジェクション
安全性アライメント
攻撃手法

An LLM can Fool Itself: A Prompt-Based Adversarial Attack

Authors: Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan Kankanhalli | Published: 2023-10-20
プロンプトインジェクション
悪意のあるプロンプト
敵対的攻撃

Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework

Authors: Imdad Ullah, Najm Hassan, Sukhpal Singh Gill, Basem Suleiman, Tariq Ahamed Ahanger, Zawar Shah, Junaid Qadir, Salil S. Kanhere | Published: 2023-10-19
プライバシー保護手法
プライバシー手法
プロンプトインジェクション

Attack Prompt Generation for Red Teaming and Defending Large Language Models

Authors: Boyi Deng, Wenjie Wang, Fuli Feng, Yang Deng, Qifan Wang, Xiangnan He | Published: 2023-10-19
プロンプトインジェクション
攻撃の評価
敵対的サンプル

Large Language Models for Code Analysis: Do LLMs Really Do Their Job?

Authors: Chongzhou Fang, Ning Miao, Shaurya Srivastav, Jialin Liu, Ruoyu Zhang, Ruijie Fang, Asmita, Ryan Tsang, Najmeh Nazari, Han Wang, Houman Homayoun | Published: 2023-10-18 | Updated: 2024-03-05
データセット生成
プログラム解析
プロンプトインジェクション

Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks

Authors: Erfan Shayegani, Md Abdullah Al Mamun, Yu Fu, Pedram Zaree, Yue Dong, Nael Abu-Ghazaleh | Published: 2023-10-16
プロンプトインジェクション
敵対的サンプル
敵対的訓練

Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation

Authors: Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen | Published: 2023-10-10
プロンプトインジェクション
攻撃の評価
敵対的攻撃

LLMs Killed the Script Kiddie: How Agents Supported by Large Language Models Change the Landscape of Network Threat Testing

Authors: Stephen Moskal, Sam Laney, Erik Hemberg, Una-May O'Reilly | Published: 2023-10-10
プロンプトインジェクション
情報収集手法
脅威アクター支援