バックドア攻撃

A Study of Backdoors in Instruction Fine-tuned Language Models

Authors: Jayaram Raghuram, George Kesidis, David J. Miller | Published: 2024-06-12 | Updated: 2024-08-21

LLMセキュリティ

バックドア攻撃

防御手法

2024.06.12 2025.04.03

文献データベース

A Survey of Recent Backdoor Attacks and Defenses in Large Language Models

Authors: Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Xiaoyu Xu, Xiaobao Wu, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan | Published: 2024-06-10 | Updated: 2025-01-04

LLMセキュリティ

バックドア攻撃

2024.06.10 2025.04.03

文献データベース

An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection

Authors: Shenao Yan, Shen Wang, Yue Duan, Hanbin Hong, Kiho Lee, Doowon Kim, Yuan Hong | Published: 2024-06-10

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2024.06.10 2025.04.03

文献データベース

Lurking in the shadows: Unveiling Stealthy Backdoor Attacks against Personalized Federated Learning

Authors: Xiaoting Lyu, Yufei Han, Wei Wang, Jingkai Liu, Yongsheng Zhu, Guangquan Xu, Jiqiang Liu, Xiangliang Zhang | Published: 2024-06-10

バックドア攻撃

ポイズニング

2024.06.10 2025.04.03

文献データベース

A Survey on Machine Unlearning: Techniques and New Emerged Privacy Risks

Authors: Hengzhu Liu, Ping Xiong, Tianqing Zhu, Philip S. Yu | Published: 2024-06-10

バックドア攻撃

ポイズニング

メンバーシップ推論

2024.06.10 2025.04.03

文献データベース

Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models

Authors: Alkis Kalavasis, Amin Karbasi, Argyris Oikonomou, Katerina Sotiraki, Grigoris Velegkas, Manolis Zampetakis | Published: 2024-06-09 | Updated: 2024-09-07

ウォーターマーキング

バックドア攻撃

2024.06.09 2025.04.03

文献データベース

BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents

Authors: Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian | Published: 2024-06-05

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2024.06.05 2025.04.03

文献データベース

No Vandalism: Privacy-Preserving and Byzantine-Robust Federated Learning

Authors: Zhibo Xing, Zijian Zhang, Zi'ang Zhang, Jiamou Liu, Liehuang Zhu, Giovanni Russello | Published: 2024-06-03

ウォーターマーキング

バックドア攻撃

ポイズニング

2024.06.03 2025.04.03

文献データベース

PureGen: Universal Data Purification for Train-Time Poison Defense via Generative Model Dynamics

Authors: Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Alexander Branch, Gregory Pottie | Published: 2024-05-28 | Updated: 2024-06-02

ウォーターマーキング

バックドア攻撃

ポイズニング

2024.05.28 2025.04.03

文献データベース

Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu | Published: 2024-05-27 | Updated: 2024-10-05

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2024.05.27 2025.04.03

文献データベース