プロンプトインジェクション

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

Authors: Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun | Published: 2023-11-15 | Updated: 2024-01-20
プロンプトインジェクション
攻撃手法
顔認識

A Robust Semantics-based Watermark for Large Language Model against Paraphrasing

Authors: Jie Ren, Han Xu, Yiding Liu, Yingqian Cui, Shuaiqiang Wang, Dawei Yin, Jiliang Tang | Published: 2023-11-15 | Updated: 2024-04-01
プロンプトインジェクション
ロバスト性評価
情報隠蔽手法

DEMASQ: Unmasking the ChatGPT Wordsmith

Authors: Kavita Kumari, Alessandro Pegoraro, Hossein Fereidooni, Ahmad-Reza Sadeghi | Published: 2023-11-08
エネルギーベースモデル
プロンプトインジェクション
評価手法

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Boxin Wang, Jinyuan Jia, Bo Li, Radha Poovendran | Published: 2023-11-07 | Updated: 2023-11-29
プロンプトインジェクション
実験的検証
攻撃手法

ELEGANT: Certified Defense on the Fairness of Graph Neural Networks

Authors: Yushun Dong, Binchi Zhang, Hanghang Tong, Jundong Li | Published: 2023-11-05
GNN
バイアス緩和手法
プロンプトインジェクション

Comprehensive Assessment of Toxicity in ChatGPT

Authors: Boyang Zhang, Xinyue Shen, Wai Man Si, Zeyang Sha, Zeyuan Chen, Ahmed Salem, Yun Shen, Michael Backes, Yang Zhang | Published: 2023-11-03
AIチャットボットの悪用
プロンプトインジェクション
不適切コンテンツ生成

Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game

Authors: Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke Bailey, Tiffany Wang, Isaac Ong, Karim Elmaaroufi, Pieter Abbeel, Trevor Darrell, Alan Ritter, Stuart Russell | Published: 2023-11-02
プロンプトインジェクション
プロンプトエンジニアリング
ロバスト性評価

From Chatbots to PhishBots? — Preventing Phishing scams created using ChatGPT, Google Bard and Claude

Authors: Sayak Saha Roy, Poojitha Thota, Krishna Vamsi Naragam, Shirin Nilizadeh | Published: 2023-10-29 | Updated: 2024-03-10
データセット生成
フィッシング攻撃の検出率
プロンプトインジェクション

Enhancing Large Language Models for Secure Code Generation: A Dataset-driven Study on Vulnerability Mitigation

Authors: Jiexin Wang, Liuwen Cao, Xitong Luo, Zhiping Zhou, Jiayuan Xie, Adam Jatowt, Yi Cai | Published: 2023-10-25
セキュリティ分析
ソフトウェアセキュリティ
プロンプトインジェクション

Locally Differentially Private Document Generation Using Zero Shot Prompting

Authors: Saiteja Utpala, Sara Hooker, Pin Yu Chen | Published: 2023-10-24 | Updated: 2023-11-30
プライバシー手法
プロンプトインジェクション
メンバーシップ推論