プロンプトインジェクション

“Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Authors: Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, Yang Zhang | Published: 2023-08-07 | Updated: 2024-05-15
LLMセキュリティ
キャラクター役割演技
プロンプトインジェクション

Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing

Authors: Wai Man Si, Michael Backes, Yang Zhang | Published: 2023-08-07
ウォーターマーキング
プロンプトインジェクション
生成モデルの課題

PromptCARE: Prompt Copyright Protection by Watermark Injection and Verification

Authors: Hongwei Yao, Jian Lou, Kui Ren, Zhan Qin | Published: 2023-08-05 | Updated: 2023-11-28
ソフトプロンプト最適化
プロンプトインジェクション
透かしの耐久性

Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection

Authors: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin | Published: 2023-07-31 | Updated: 2024-04-03
LLMセキュリティ
システムプロンプト生成
プロンプトインジェクション

Universal and Transferable Adversarial Attacks on Aligned Language Models

Authors: Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, Matt Fredrikson | Published: 2023-07-27 | Updated: 2023-12-20
LLMセキュリティ
プロンプトインジェクション
不適切コンテンツ生成

Backdoor Attacks for In-Context Learning with Language Models

Authors: Nikhil Kandpal, Matthew Jagielski, Florian Tramèr, Nicholas Carlini | Published: 2023-07-27
LLMセキュリティ
バックドア攻撃
プロンプトインジェクション

Unveiling Security, Privacy, and Ethical Concerns of ChatGPT

Authors: Xiaodong Wu, Ran Duan, Jianbing Ni | Published: 2023-07-26
LLMセキュリティ
プロンプトインジェクション
不適切コンテンツ生成

Getting pwn’d by AI: Penetration Testing with Large Language Models

Authors: Andreas Happe, Jürgen Cito | Published: 2023-07-24 | Updated: 2023-08-17
LLMセキュリティ
プロンプトインジェクション
ペネトレーションテスト手法

The Looming Threat of Fake and LLM-generated LinkedIn Profiles: Challenges and Opportunities for Detection and Prevention

Authors: Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee | Published: 2023-07-21
データ生成
プロンプトインジェクション
検出手法の分析

A LLM Assisted Exploitation of AI-Guardian

Authors: Nicholas Carlini | Published: 2023-07-20
プロンプトインジェクション
メンバーシップ推論
透かしの耐久性