Misusing Tools in Large Language Models With Visual Adversarial Examples Authors: Xiaohan Fu, Zihan Wang, Shuheng Li, Rajesh K. Gupta, Niloofar Mireshghallah, Taylor Berg-Kirkpatrick, Earlence Fernandes | Published: 2023-10-04 LLM性能評価プロンプトインジェクション敵対的サンプル 2023.10.04 2025.04.03 文献データベース
Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin | Published: 2023-10-04 プロンプトインジェクション安全性アライメント悪意のあるコンテンツ生成 2023.10.04 2025.04.03 文献データベース
Low-Resource Languages Jailbreak GPT-4 Authors: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach | Published: 2023-10-03 | Updated: 2024-01-27 プロンプトインジェクション安全性アライメント脆弱性検出 2023.10.03 2025.04.03 文献データベース
Jailbreaker in Jail: Moving Target Defense for Large Language Models Authors: Bocheng Chen, Advait Paliwal, Qiben Yan | Published: 2023-10-03 LLM性能評価プロンプトインジェクション評価指標 2023.10.03 2025.04.03 文献データベース
On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? Authors: Hangfan Zhang, Zhimeng Guo, Huaisheng Zhu, Bochuan Cao, Lu Lin, Jinyuan Jia, Jinghui Chen, Dinghao Wu | Published: 2023-10-02 LLM性能評価プロンプトインジェクション悪意のある行為者の分類 2023.10.02 2025.04.03 文献データベース
Large Language Model-Powered Smart Contract Vulnerability Detection: New Perspectives Authors: Sihao Hu, Tiansheng Huang, Fatih İlhan, Selim Furkan Tekin, Ling Liu | Published: 2023-10-02 | Updated: 2023-10-16 セキュリティ分析プロンプトインジェクション脆弱性予測 2023.10.02 2025.04.03 文献データベース
Watch Your Language: Investigating Content Moderation with Large Language Models Authors: Deepak Kumar, Yousef AbuHashem, Zakir Durumeric | Published: 2023-09-25 | Updated: 2024-01-17 LLM性能評価プロンプトインジェクション不適切コンテンツ生成 2023.09.25 2025.04.03 文献データベース
Can LLM-Generated Misinformation Be Detected? Authors: Canyu Chen, Kai Shu | Published: 2023-09-25 | Updated: 2024-04-23 LLM性能評価プロンプトインジェクション不適切コンテンツ生成 2023.09.25 2025.04.03 文献データベース
Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Authors: Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen | Published: 2023-09-18 | Updated: 2024-06-12 プロンプトインジェクション安全性アライメント防御手法 2023.09.18 2025.04.03 文献データベース
FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models Authors: Dongyu Yao, Jianshu Zhang, Ian G. Harris, Marcel Carlsson | Published: 2023-09-11 | Updated: 2024-04-14 LLMセキュリティウォーターマーキングプロンプトインジェクション 2023.09.11 2025.04.03 文献データベース