AIセキュリティマップにマッピングされた情報システム的側面における負の影響「特定の条件下でAIの出力を操作」をもたらす攻撃・要因、それに対する防御手法・対策、および対象のAI技術・タスク・データを示しています。また、関連する外部作用的側面の要素も示しています。
攻撃・要因
防御手法・対策
- トリガー検知
- バックドア攻撃用の毒データの検知
- バックドアモデルの検知
- モデルの頑健性保証
開発・活用における適用フェーズ
1. データ収集・前処理
- バックドア攻撃用の毒データの検知
2. モデルの選定・学習・検証
- バックドアモデルの検知
- モデルの頑健性保証
3. システムの実装
- トリガー検知
4. システムの提供・運用・保守
- トリガー検知
5. システムの利用
対象のAI技術
- DNN
- CNN
- LLM
- 対照学習
- FSL
- GNN
- 連合学習
- LSTM
- RNN
タスク
- 分類
- 生成
対象のデータ
- 画像
- グラフ
- テキスト
- 音声
関連する外部作用的側面
参考文献
バックドア攻撃
- Targeted backdoor attacks on deep learning systems using data poisoning, 2017
- BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain, 2017
- Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses, 2020
- Hidden Trigger Backdoor Attacks, 2020
- Backdoor Attacks to Graph Neural Networks, 2021
- Graph Backdoor, 2021
- Can You Hear It? Backdoor Attack via Ultrasonic Triggers, 2021
- Backdoor Attacks Against Dataset Distillation, 2023
- Universal Jailbreak Backdoors from Poisoned Human Feedback, 2023
バックドア攻撃用の毒データの検知
バックドアモデルの検知
- Neural Trojans, 2017.0
- Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks, 2018.0
- Detecting AI Trojans Using Meta Neural Analysis, 2021.0
- T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification, 2021.0
- Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning, 2024.0
- LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors, 2024.0
モデルの頑健性保証
- Certified Defenses for Data Poisoning Attacks, 2017.0
- Certified Robustness to Adversarial Examples with Differential Privacy, 2019.0
- On Evaluating Adversarial Robustness, 2019.0
- Certified Adversarial Robustness via Randomized Smoothing, 2019.0
- Certified Robustness of Graph Neural Networks against Adversarial Structural Perturbation, 2021.0
- Certified Robustness for Large Language Models with Self-Denoising, 2023.0
- RAB: Provable Robustness Against Backdoor Attacks, 2023.0
- (Certified!!) Adversarial Robustness for Free!, 2023.0
- Certifying LLM Safety against Adversarial Prompting, 2024.0
