Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models Authors: Xi Li, Ruofan Mao, Yusen Zhang, Renze Lou, Chen Wu, Jiaqi Wang | Published: 2024-06-10 | Updated: 2025-10-30 インダイレクトプロンプトインジェクショントリガーの検知プロンプトリーキング 2024.06.10 文献データベース
LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors Authors: Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao, Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen | Published: 2023-08-26 | Updated: 2023-10-14 トリガーの検知バックドアモデルの検知攻撃手法 2023.08.26 2025.04.03 文献データベース
WW-FL: Secure and Private Large-Scale Federated Learning Authors: Felix Marx, Thomas Schneider, Ajith Suresh, Tobias Wehrle, Christian Weinert, Hossein Yalame | Published: 2023-02-20 | Updated: 2025-10-14 トリガーの検知プライバシー保護技術ポイズニング 2023.02.20 文献データベース
ONION: A Simple and Effective Defense Against Textual Backdoor Attacks Authors: Fanchao Qi, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, Maosong Sun | Published: 2020-11-20 | Updated: 2021-11-03 テキストの摂動手法トリガーの検知バックドアモデルの検知 2020.11.20 2025.04.03 文献データベース
Eternal Sunshine of the Spotless Net: Selective Forgetting in Deep Networks Authors: Aditya Golatkar, Alessandro Achille, Stefano Soatto | Published: 2019-11-12 | Updated: 2020-03-31 トリガーの検知マシン・アンラーニング情報セキュリティ 2019.11.12 2025.04.03 文献データベース
Februus: Input Purification Defense Against Trojan Attacks on Deep Neural Network Systems Authors: Bao Gia Doan, Ehsan Abbasnejad, Damith C. Ranasinghe | Published: 2019-08-09 | Updated: 2020-09-28 トリガーの検知トロイの木馬検出バックドアモデルの検知 2019.08.09 2025.04.03 文献データベース
Scaling up the randomized gradient-free adversarial attack reveals overestimation of robustness using established attacks Authors: Francesco Croce, Jonas Rauber, Matthias Hein | Published: 2019-03-27 | Updated: 2019-09-25 トリガーの検知敵対的学習敵対的攻撃検出 2019.03.27 2025.04.03 文献データベース
STRIP: A Defence Against Trojan Attacks on Deep Neural Networks Authors: Yansong Gao, Chang Xu, Derui Wang, Shiping Chen, Damith C. Ranasinghe, Surya Nepal | Published: 2019-02-18 | Updated: 2020-01-17 トリガーの検知トロイの木馬検出バックドアモデルの検知 2019.02.18 2025.04.03 文献データベース
Discretization based Solutions for Secure Machine Learning against Adversarial Attacks Authors: Priyadarshini Panda, Indranil Chakraborty, Kaushik Roy | Published: 2019-02-08 | Updated: 2019-02-11 トリガーの検知モデルの頑健性保証ロバスト性向上手法 2019.02.08 2025.04.03 文献データベース
Universal Rules for Fooling Deep Neural Networks based Text Classification Authors: Di Li, Danilo Vasconcellos Vargas, Sakurai Kouichi | Published: 2019-01-22 | Updated: 2019-04-03 トリガーの検知敵対的サンプル深層学習手法 2019.01.22 2025.04.03 文献データベース