Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward Authors: Xuan Xie, Jiayang Song, Zhehua Zhou, Yuheng Huang, Da Song, Lei Ma | Published: 2024-04-12 LLMセキュリティLLM性能評価プロンプトインジェクション 2024.04.12 2025.04.03 文献データベース
Subtoxic Questions: Dive Into Attitude Change of LLM’s Response in Jailbreak Attempts Authors: Tianyu Zhang, Zixuan Zhao, Jiaqi Huang, Jingyu Hua, Sheng Zhong | Published: 2024-04-12 LLMセキュリティプロンプトインジェクションプロンプトエンジニアリング 2024.04.12 2025.04.03 文献データベース
Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs Authors: Bibek Upadhayay, Vahid Behzadan | Published: 2024-04-09 LLMセキュリティプロンプトインジェクション攻撃手法 2024.04.09 2025.04.03 文献データベース
Rethinking How to Evaluate Language Model Jailbreak Authors: Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik | Published: 2024-04-09 | Updated: 2024-05-07 プロンプトインジェクション悪意のある行為者の分類評価手法 2024.04.09 2025.04.03 文献データベース
Unbridled Icarus: A Survey of the Potential Perils of Image Inputs in Multimodal Large Language Model Security Authors: Yihe Fan, Yuxin Cao, Ziyu Zhao, Ziyao Liu, Shaofeng Li | Published: 2024-04-08 | Updated: 2024-08-11 LLMセキュリティプロンプトインジェクション脅威モデリング 2024.04.08 2025.04.03 文献データベース
Initial Exploration of Zero-Shot Privacy Utility Tradeoffs in Tabular Data Using GPT-4 Authors: Bishwas Mandal, George Amariucai, Shuangqing Wei | Published: 2024-04-07 データプライバシー評価プライバシー保護手法プロンプトインジェクション 2024.04.07 2025.04.03 文献データベース
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes Authors: Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi | Published: 2024-04-05 | Updated: 2024-09-09 LLMセキュリティプロンプトインジェクション安全性アライメント 2024.04.05 2025.04.03 文献データベース
AuditGPT: Auditing Smart Contracts with ChatGPT Authors: Shihao Xia, Shuai Shao, Mengting He, Tingting Yu, Linhai Song, Yiying Zhang | Published: 2024-04-05 ERCルールERC準拠評価プロンプトインジェクション 2024.04.05 2025.04.03 文献データベース
An Investigation into Misuse of Java Security APIs by Large Language Models Authors: Zahra Mousavi, Chadni Islam, Kristen Moore, Alsharif Abuadbba, Muhammad Ali Babar | Published: 2024-04-04 セキュリティAPIの誤用セキュリティ分析プロンプトインジェクション 2024.04.04 2025.04.03 文献データベース
Exploring Backdoor Vulnerabilities of Chat Models Authors: Yunzhuo Hao, Wenkai Yang, Yankai Lin | Published: 2024-04-03 バックドア攻撃プロンプトインジェクション 2024.04.03 2025.04.03 文献データベース