プロンプトインジェクション

Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward

Authors: Xuan Xie, Jiayang Song, Zhehua Zhou, Yuheng Huang, Da Song, Lei Ma | Published: 2024-04-12
LLMセキュリティ
LLM性能評価
プロンプトインジェクション

Subtoxic Questions: Dive Into Attitude Change of LLM’s Response in Jailbreak Attempts

Authors: Tianyu Zhang, Zixuan Zhao, Jiaqi Huang, Jingyu Hua, Sheng Zhong | Published: 2024-04-12
LLMセキュリティ
プロンプトインジェクション
プロンプトエンジニアリング

Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs

Authors: Bibek Upadhayay, Vahid Behzadan | Published: 2024-04-09
LLMセキュリティ
プロンプトインジェクション
攻撃手法

Rethinking How to Evaluate Language Model Jailbreak

Authors: Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik | Published: 2024-04-09 | Updated: 2024-05-07
プロンプトインジェクション
悪意のある行為者の分類
評価手法

Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security

Authors: Yihe Fan, Yuxin Cao, Ziyu Zhao, Ziyao Liu, Shaofeng Li | Published: 2024-04-08 | Updated: 2024-08-11
LLMセキュリティ
プロンプトインジェクション
脅威モデリング

Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4

Authors: Bishwas Mandal, George Amariucai, Shuangqing Wei | Published: 2024-04-07
データプライバシー評価
プライバシー保護手法
プロンプトインジェクション

Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes

Authors: Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi | Published: 2024-04-05 | Updated: 2024-09-09
LLMセキュリティ
プロンプトインジェクション
安全性アライメント

AuditGPT: Auditing Smart Contracts with ChatGPT

Authors: Shihao Xia, Shuai Shao, Mengting He, Tingting Yu, Linhai Song, Yiying Zhang | Published: 2024-04-05
ERCルール
ERC準拠評価
プロンプトインジェクション

An Investigation into Misuse of Java Security APIs by Large Language Models

Authors: Zahra Mousavi, Chadni Islam, Kristen Moore, Alsharif Abuadbba, Muhammad Ali Babar | Published: 2024-04-04
セキュリティAPIの誤用
セキュリティ分析
プロンプトインジェクション

Exploring Backdoor Vulnerabilities of Chat Models

Authors: Yunzhuo Hao, Wenkai Yang, Yankai Lin | Published: 2024-04-03
バックドア攻撃
プロンプトインジェクション