プロンプトインジェクション

Getting pwn’d by AI: Penetration Testing with Large Language Models

Authors: Andreas Happe, Jürgen Cito | Published: 2023-07-24 | Updated: 2023-08-17
LLMセキュリティ
プロンプトインジェクション
ペネトレーションテスト手法

The Looming Threat of Fake and LLM-generated LinkedIn Profiles: Challenges and Opportunities for Detection and Prevention

Authors: Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee | Published: 2023-07-21
データ生成
プロンプトインジェクション
検出手法の分析

A LLM Assisted Exploitation of AI-Guardian

Authors: Nicholas Carlini | Published: 2023-07-20
プロンプトインジェクション
メンバーシップ推論
透かしの耐久性

MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots

Authors: Gelei Deng, Yi Liu, Yuekang Li, Kailong Wang, Ying Zhang, Zefeng Li, Haoyu Wang, Tianwei Zhang, Yang Liu | Published: 2023-07-16 | Updated: 2023-10-25
データ漏洩
プロンプトインジェクション
透かしの耐久性

Time for aCTIon: Automated Analysis of Cyber Threat Intelligence in the Wild

Authors: Giuseppe Siracusano, Davide Sanvito, Roberto Gonzalez, Manikantan Srinivasan, Sivakaman Kamatchi, Wataru Takahashi, Masaru Kawakita, Takahiro Kakumaru, Roberto Bifulco | Published: 2023-07-14
データセット生成
プロンプトインジェクション
攻撃パターン抽出

Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots

Authors: Bocheng Chen, Guangjing Wang, Hanqing Guo, Yuanda Wang, Qiben Yan | Published: 2023-07-14
プロンプトインジェクション
対話システム
攻撃の評価

Effective Prompt Extraction from Language Models

Authors: Yiming Zhang, Nicholas Carlini, Daphne Ippolito | Published: 2023-07-13 | Updated: 2024-08-07
プロンプトインジェクション
プロンプトリーキング
対話システム

Jailbroken: How Does LLM Safety Training Fail?

Authors: Alexander Wei, Nika Haghtalab, Jacob Steinhardt | Published: 2023-07-05
セキュリティ保証
プロンプトインジェクション
敵対的攻撃手法

On the Exploitability of Instruction Tuning

Authors: Manli Shu, Jiongxiao Wang, Chen Zhu, Jonas Geiping, Chaowei Xiao, Tom Goldstein | Published: 2023-06-28 | Updated: 2023-10-28
プロンプトインジェクション
ポイズニング
敵対的攻撃検出

Are aligned neural networks adversarially aligned?

Authors: Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt | Published: 2023-06-26 | Updated: 2024-05-06
プロンプトインジェクション
敵対的サンプル
敵対的攻撃手法