Optimizing Adaptive Attacks against Content Watermarks for Language Models Authors: Abdulrahman Diaa, Toluwani Aremu, Nils Lukas | Published: 2024-10-03 LLMセキュリティウォーターマーキングプロンプトインジェクション 2024.10.03 2025.04.03 文献データベース
Robust LLM safeguarding via refusal feature adversarial training Authors: Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda | Published: 2024-09-30 | Updated: 2025-03-20 プロンプトインジェクションモデルの堅牢性敵対的学習 2024.09.30 2025.04.03 文献データベース
System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective Authors: Fangzhou Wu, Ethan Cecchetti, Chaowei Xiao | Published: 2024-09-27 | Updated: 2024-10-10 LLMセキュリティプロンプトインジェクション実行トレースの妨害 2024.09.27 2025.04.03 文献データベース
An Adversarial Perspective on Machine Unlearning for AI Safety Authors: Jakub Łucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tramèr, Javier Rando | Published: 2024-09-26 | Updated: 2025-04-10 プロンプトインジェクション安全性アライメント機械学習の忘却 2024.09.26 文献データベース
Weak-to-Strong Backdoor Attack for Large Language Models Authors: Shuai Zhao, Leilei Gan, Zhongliang Guo, Xiaobao Wu, Luwei Xiao, Xiaoyu Xu, Cong-Duy Nguyen, Luu Anh Tuan | Published: 2024-09-26 | Updated: 2024-10-13 バックドア攻撃プロンプトインジェクション 2024.09.26 2025.04.03 文献データベース
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks Authors: Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hameed, Ambrish Rawat, Mark Purcell | Published: 2024-09-26 | Updated: 2024-10-04 ガードレール手法コンテンツモデレーションプロンプトインジェクション 2024.09.26 2025.04.03 文献データベース
PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach Authors: Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li | Published: 2024-09-21 | Updated: 2024-10-03 LLM性能評価プロンプトインジェクション 2024.09.21 2025.04.03 文献データベース
LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems Authors: Hakan T. Otal, M. Abdullah Canbaz | Published: 2024-09-12 | Updated: 2024-09-15 LLMセキュリティサイバーセキュリティプロンプトインジェクション 2024.09.12 2025.04.03 文献データベース
Exploring LLMs for Malware Detection: Review, Framework Design, and Countermeasure Approaches Authors: Jamal Al-Karaki, Muhammad Al-Zafar Khan, Marwan Omar | Published: 2024-09-11 LLMセキュリティプロンプトインジェクションマルウェア分類 2024.09.11 2025.04.03 文献データベース
CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification Authors: Zeqing Qin, Yiwei Wu, Lansheng Han | Published: 2024-09-11 LLM性能評価プログラム解析プロンプトインジェクション 2024.09.11 2025.04.03 文献データベース