プロンプトインジェクション

DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions

Authors: Fangzhou Wu, Xiaogeng Liu, Chaowei Xiao | Published: 2023-12-07 | Updated: 2023-12-12
LLMセキュリティ
コード生成
プロンプトインジェクション

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models

Authors: Manish Bhatt, Sahana Chennabasappa, Cyrus Nikolaidis, Shengye Wan, Ivan Evtimov, Dominik Gabi, Daniel Song, Faizan Ahmad, Cornelius Aschermann, Lorenzo Fontana, Sasha Frolov, Ravi Prakash Giri, Dhaval Kapil, Yiannis Kozyrakis, David LeBlanc, James Milazzo, Aleksandar Straumann, Gabriel Synnaeve, Varun Vontimitta, Spencer Whitman, Joshua Saxe | Published: 2023-12-07
LLMセキュリティ
サイバーセキュリティ
プロンプトインジェクション

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs

Authors: Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek | Published: 2023-12-06 | Updated: 2024-10-07
キャラクター役割演技
プロンプトインジェクション
ポイズニング

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

Authors: Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi | Published: 2023-12-04 | Updated: 2024-10-31
クエリ生成手法
プロンプトインジェクション
透かし評価

The Philosopher’s Stone: Trojaning Plugins of Large Language Models

Authors: Tian Dong, Minhui Xue, Guoxing Chen, Rayne Holland, Yan Meng, Shaofeng Li, Zhen Liu, Haojin Zhu | Published: 2023-12-01 | Updated: 2024-09-11
プロンプトインジェクション
ポイズニング
ポイズニング攻撃

Mark My Words: Analyzing and Evaluating Language Model Watermarks

Authors: Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner | Published: 2023-12-01 | Updated: 2024-10-11
プロンプトインジェクション
透かしの耐久性
透かし評価

Scalable Extraction of Training Data from (Production) Language Models

Authors: Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr, Katherine Lee | Published: 2023-11-28
データ漏洩
トレーニングデータ抽出手法
プロンプトインジェクション

Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles

Authors: Sonali Singh, Faranak Abri, Akbar Siami Namin | Published: 2023-11-24
AIチャットボットの悪用
プロンプトインジェクション
心理的操作

Transfer Attacks and Defenses for Large Language Models on Coding Tasks

Authors: Chi Zhang, Zifan Wang, Ravi Mangal, Matt Fredrikson, Limin Jia, Corina Pasareanu | Published: 2023-11-22
プロンプトインジェクション
敵対的攻撃
防御手法

Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems

Authors: Guangjing Wang, Ce Zhou, Yuanda Wang, Bocheng Chen, Hanqing Guo, Qiben Yan | Published: 2023-11-20
プロンプトインジェクション
ポイズニング
転移学習