プロンプトリーキング

Assessing Prompt Injection Risks in 200+ Custom GPTs

Authors: Jiahao Yu, Yuhang Wu, Dong Shu, Mingyu Jin, Sabrina Yang, Xinyu Xing | Published: 2023-11-20 | Updated: 2024-05-25
プロンプトインジェクション
プロンプトリーキング
対話システム

You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

Authors: Xinlei He, Savvas Zannettou, Yun Shen, Yang Zhang | Published: 2023-08-10
テキストデトキシフィケーション
プロンプトリーキング
出力の有害度の算出

Effective Prompt Extraction from Language Models

Authors: Yiming Zhang, Nicholas Carlini, Daphne Ippolito | Published: 2023-07-13 | Updated: 2024-08-07
プロンプトインジェクション
プロンプトリーキング
対話システム

Undetectable Watermarks for Language Models

Authors: Miranda Christ, Sam Gunn, Or Zamir | Published: 2023-05-25
プロンプトリーキング
生成AI向け電子透かし
透かし技術

Killing four birds with one Gaussian process: the relation between different test-time attacks

Authors: Kathrin Grosse, Michael T. Smith, Michael Backes | Published: 2018-06-06 | Updated: 2020-11-29
プロンプトリーキング
メンバーシップ推論
透かし評価