プロンプトインジェクション

Detecting Language Model Attacks with Perplexity

Authors: Gabriel Alon, Michael Kamfonas | Published: 2023-08-27 | Updated: 2023-11-07
LLMセキュリティ
プロンプトインジェクション
悪意のあるプロンプト

Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities

Authors: Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewis D. Griffin | Published: 2023-08-24
プロンプトインジェクション
悪意のあるコンテンツ生成
敵対的サンプル

Devising and Detecting Phishing: Large Language Models vs. Smaller Human Models

Authors: Fredrik Heiding, Bruce Schneier, Arun Vishwanath, Jeremy Bernstein, Peter S. Park | Published: 2023-08-23 | Updated: 2023-11-30
フィッシング
フィッシング攻撃
プロンプトインジェクション

Time Travel in LLMs: Tracing Data Contamination in Large Language Models

Authors: Shahriar Golchin, Mihai Surdeanu | Published: 2023-08-16 | Updated: 2024-02-21
データ汚染検出
プロンプトインジェクション
自然言語処理

Robustness Over Time: Understanding Adversarial Examples’ Effectiveness on Longitudinal Versions of Large Language Models

Authors: Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang | Published: 2023-08-15 | Updated: 2024-05-06
プロンプトインジェクション
モデル性能評価
ロバスト性に関する評価

PentestGPT: An LLM-empowered Automatic Penetration Testing Tool

Authors: Gelei Deng, Yi Liu, Víctor Mayoral-Vilches, Peng Liu, Yuekang Li, Yuan Xu, Tianwei Zhang, Yang Liu, Martin Pinzger, Stefan Rass | Published: 2023-08-13 | Updated: 2024-06-02
プロンプトインジェクション
ペネトレーションテスト手法
性能評価

An Empirical Study on Using Large Language Models to Analyze Software Supply Chain Security Failures

Authors: Tanmay Singla, Dharun Anandayuvaraj, Kelechi G. Kalu, Taylor R. Schorlemmer, James C. Davis | Published: 2023-08-09
サイバー攻撃
プロンプトインジェクション
モデル性能評価

“Do Anything Now”: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Authors: Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, Yang Zhang | Published: 2023-08-07 | Updated: 2024-05-15
LLMセキュリティ
キャラクター役割演技
プロンプトインジェクション

Mondrian: Prompt Abstraction Attack Against Large Language Models for Cheaper API Pricing

Authors: Wai Man Si, Michael Backes, Yang Zhang | Published: 2023-08-07
ウォーターマーキング
プロンプトインジェクション
生成モデルの課題

PromptCARE: Prompt Copyright Protection by Watermark Injection and Verification

Authors: Hongwei Yao, Jian Lou, Kui Ren, Zhan Qin | Published: 2023-08-05 | Updated: 2023-11-28
ソフトプロンプト最適化
プロンプトインジェクション
透かしの耐久性