プロンプトインジェクション

Multi-step Jailbreaking Privacy Attacks on ChatGPT

Authors: Haoran Li, Dadi Guo, Wei Fan, Mingshi Xu, Jie Huang, Fanpu Meng, Yangqiu Song | Published: 2023-04-11 | Updated: 2023-11-01
LLMセキュリティ
プライバシー分析
プロンプトインジェクション

Certifiable Black-Box Attacks with Randomized Adversarial Examples: Breaking Defenses with Provable Confidence

Authors: Hanbin Hong, Xinyu Zhang, Binghui Wang, Zhongjie Ba, Yuan Hong | Published: 2023-04-10 | Updated: 2024-09-06
プロンプトインジェクション
実験的検証
攻撃の評価

DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection

Authors: Yizheng Chen, Zhoujie Ding, Lamya Alowain, Xinyun Chen, David Wagner | Published: 2023-04-01 | Updated: 2023-08-09
セキュリティラベル
プロンプトインジェクション
脆弱性検出

MGTBench: Benchmarking Machine-Generated Text Detection

Authors: Xinlei He, Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang | Published: 2023-03-26 | Updated: 2024-01-16
MGT検出手法
プロンプトインジェクション
性能評価

Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense

Authors: Kalpesh Krishna, Yixiao Song, Marzena Karpinska, John Wieting, Mohit Iyyer | Published: 2023-03-23 | Updated: 2023-10-18
DNN IP保護手法
プロンプトインジェクション
機械学習技術

Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection

Authors: Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz | Published: 2023-02-23 | Updated: 2023-05-05
インダイレクトプロンプトインジェクション
プロンプトインジェクション
悪意のあるプロンプト

Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective

Authors: Baoyuan Wu, Zihao Zhu, Li Liu, Qingshan Liu, Zhaofeng He, Siwei Lyu | Published: 2023-02-19 | Updated: 2024-01-04
バックドア攻撃
プロンプトインジェクション
ポイズニング攻撃

Large Language Models for Code: Security Hardening and Adversarial Testing

Authors: Jingxuan He, Martin Vechev | Published: 2023-02-10 | Updated: 2024-08-16
セキュリティ保証
プロンプトインジェクション
脆弱性分析

CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models

Authors: Hossein Hajipour, Keno Hassler, Thorsten Holz, Lea Schönherr, Mario Fritz | Published: 2023-02-08 | Updated: 2023-10-23
コード生成
プロンプトインジェクション
脆弱性分析

A Watermark for Large Language Models

Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein | Published: 2023-01-24 | Updated: 2024-05-01
ウォーターマーキング
プロンプトインジェクション
検出手法の分析