Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Boxin Wang, Jinyuan Jia, Bo Li, Radha Poovendran | Published: 2023-11-07 | Updated: 2023-11-29 プロンプトインジェクション実験的検証攻撃手法 2023.11.07 2025.04.03 文献データベース
ELEGANT: Certified Defense on the Fairness of Graph Neural Networks Authors: Yushun Dong, Binchi Zhang, Hanghang Tong, Jundong Li | Published: 2023-11-05 GNNバイアス緩和手法プロンプトインジェクション 2023.11.05 2025.04.03 文献データベース
Comprehensive Assessment of Toxicity in ChatGPT Authors: Boyang Zhang, Xinyue Shen, Wai Man Si, Zeyang Sha, Zeyuan Chen, Ahmed Salem, Yun Shen, Michael Backes, Yang Zhang | Published: 2023-11-03 AIチャットボットの悪用プロンプトインジェクション不適切コンテンツ生成 2023.11.03 2025.04.03 文献データベース
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game Authors: Sam Toyer, Olivia Watkins, Ethan Adrian Mendes, Justin Svegliato, Luke Bailey, Tiffany Wang, Isaac Ong, Karim Elmaaroufi, Pieter Abbeel, Trevor Darrell, Alan Ritter, Stuart Russell | Published: 2023-11-02 プロンプトインジェクションプロンプトエンジニアリングロバスト性評価 2023.11.02 2025.04.03 文献データベース
From Chatbots to PhishBots? — Preventing Phishing scams created using ChatGPT, Google Bard and Claude Authors: Sayak Saha Roy, Poojitha Thota, Krishna Vamsi Naragam, Shirin Nilizadeh | Published: 2023-10-29 | Updated: 2024-03-10 データセット生成フィッシング攻撃の検出率プロンプトインジェクション 2023.10.29 2025.04.03 文献データベース
Enhancing Large Language Models for Secure Code Generation: A Dataset-driven Study on Vulnerability Mitigation Authors: Jiexin Wang, Liuwen Cao, Xitong Luo, Zhiping Zhou, Jiayuan Xie, Adam Jatowt, Yi Cai | Published: 2023-10-25 セキュリティ分析ソフトウェアセキュリティプロンプトインジェクション 2023.10.25 2025.04.03 文献データベース
Locally Differentially Private Document Generation Using Zero Shot Prompting Authors: Saiteja Utpala, Sara Hooker, Pin Yu Chen | Published: 2023-10-24 | Updated: 2023-11-30 プライバシー手法プロンプトインジェクションメンバーシップ推論 2023.10.24 2025.04.03 文献データベース
Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition Authors: Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-François Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost, Christopher Carnahan, Jordan Boyd-Graber | Published: 2023-10-24 | Updated: 2024-03-03 テキスト生成手法プロンプトインジェクション攻撃手法 2023.10.24 2025.04.03 文献データベース
SoK: Memorization in General-Purpose Large Language Models Authors: Valentin Hartmann, Anshuman Suri, Vincent Bindschaedler, David Evans, Shruti Tople, Robert West | Published: 2023-10-24 プライバシー手法プロンプトインジェクションメモリゼーションの測定 2023.10.24 2025.04.03 文献データベース
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models Authors: Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang, Furong Huang, Ani Nenkova, Tong Sun | Published: 2023-10-23 | Updated: 2023-12-14 プロンプトインジェクション安全性アライメント攻撃手法 2023.10.23 2025.04.03 文献データベース