プロンプトインジェクション

Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles

Authors: Sonali Singh, Faranak Abri, Akbar Siami Namin | Published: 2023-11-24
AIチャットボットの悪用
プロンプトインジェクション
心理的操作

Transfer Attacks and Defenses for Large Language Models on Coding Tasks

Authors: Chi Zhang, Zifan Wang, Ravi Mangal, Matt Fredrikson, Limin Jia, Corina Pasareanu | Published: 2023-11-22
プロンプトインジェクション
敵対的攻撃
防御手法

Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems

Authors: Guangjing Wang, Ce Zhou, Yuanda Wang, Bocheng Chen, Hanqing Guo, Qiben Yan | Published: 2023-11-20
プロンプトインジェクション
ポイズニング
転移学習

Assessing Prompt Injection Risks in 200+ Custom GPTs

Authors: Jiahao Yu, Yuhang Wu, Dong Shu, Mingyu Jin, Sabrina Yang, Xinyu Xing | Published: 2023-11-20 | Updated: 2024-05-25
プロンプトインジェクション
プロンプトリーキング
対話システム

Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information

Authors: Zhengmian Hu, Gang Wu, Saayan Mitra, Ruiyi Zhang, Tong Sun, Heng Huang, Viswanathan Swaminathan | Published: 2023-11-20 | Updated: 2024-02-18
プロンプトインジェクション
プロンプトの検証
ロバスト性に関する評価

Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework

Authors: Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si | Published: 2023-11-16 | Updated: 2024-08-18
プロンプトインジェクション
多言語LLMジャイルブレイク
敵対的攻撃

Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections

Authors: Yuanpu Cao, Bochuan Cao, Jinghui Chen | Published: 2023-11-15 | Updated: 2024-06-09
バックドア攻撃
プロンプトインジェクション

Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment

Authors: Haoran Wang, Kai Shu | Published: 2023-11-15 | Updated: 2024-08-15
プロンプトインジェクション
攻撃手法
自然言語処理

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

Authors: Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun | Published: 2023-11-15 | Updated: 2024-01-20
プロンプトインジェクション
攻撃手法
顔認識

A Robust Semantics-based Watermark for Large Language Model against Paraphrasing

Authors: Jie Ren, Han Xu, Yiding Liu, Yingqian Cui, Shuaiqiang Wang, Dawei Yin, Jiliang Tang | Published: 2023-11-15 | Updated: 2024-04-01
プロンプトインジェクション
ロバスト性評価
情報隠蔽手法