A Study of Backdoors in Instruction Fine-tuned Language Models Authors: Jayaram Raghuram, George Kesidis, David J. Miller | Published: 2024-06-12 | Updated: 2024-08-21 LLMセキュリティバックドア攻撃防御手法 2024.06.12 2025.04.03 文献データベース
A Survey of Recent Backdoor Attacks and Defenses in Large Language Models Authors: Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Xiaoyu Xu, Xiaobao Wu, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan | Published: 2024-06-10 | Updated: 2025-01-04 LLMセキュリティバックドア攻撃 2024.06.10 2025.04.03 文献データベース
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection Authors: Shenao Yan, Shen Wang, Yue Duan, Hanbin Hong, Kiho Lee, Doowon Kim, Yuan Hong | Published: 2024-06-10 LLMセキュリティバックドア攻撃プロンプトインジェクション 2024.06.10 2025.04.03 文献データベース
Lurking in the shadows: Unveiling Stealthy Backdoor Attacks against Personalized Federated Learning Authors: Xiaoting Lyu, Yufei Han, Wei Wang, Jingkai Liu, Yongsheng Zhu, Guangquan Xu, Jiqiang Liu, Xiangliang Zhang | Published: 2024-06-10 バックドア攻撃ポイズニング 2024.06.10 2025.04.03 文献データベース
A Survey on Machine Unlearning: Techniques and New Emerged Privacy Risks Authors: Hengzhu Liu, Ping Xiong, Tianqing Zhu, Philip S. Yu | Published: 2024-06-10 バックドア攻撃ポイズニングメンバーシップ推論 2024.06.10 2025.04.03 文献データベース
Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models Authors: Alkis Kalavasis, Amin Karbasi, Argyris Oikonomou, Katerina Sotiraki, Grigoris Velegkas, Manolis Zampetakis | Published: 2024-06-09 | Updated: 2024-09-07 ウォーターマーキングバックドア攻撃 2024.06.09 2025.04.03 文献データベース
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents Authors: Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian | Published: 2024-06-05 LLMセキュリティバックドア攻撃プロンプトインジェクション 2024.06.05 2025.04.03 文献データベース
No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning Authors: Zhibo Xing, Zijian Zhang, Zi'ang Zhang, Jiamou Liu, Liehuang Zhu, Giovanni Russello | Published: 2024-06-03 ウォーターマーキングバックドア攻撃ポイズニング 2024.06.03 2025.04.03 文献データベース
PureGen: Universal Data Purification for Train-Time Poison Defense via Generative Model Dynamics Authors: Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Alexander Branch, Gregory Pottie | Published: 2024-05-28 | Updated: 2024-06-02 ウォーターマーキングバックドア攻撃ポイズニング 2024.05.28 2025.04.03 文献データベース
Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu | Published: 2024-05-27 | Updated: 2024-10-05 LLMセキュリティバックドア攻撃プロンプトインジェクション 2024.05.27 2025.04.03 文献データベース