バックドア攻撃

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks

Authors: Hanjiang Hu, Alexander Robey, Changliu Liu | Published: 2025-02-28 | Updated: 2025-08-25

バックドア攻撃

プロンプトインジェクション

透かし

2025.02.28

文献データベース

BackdoorDM: A Comprehensive Benchmark for Backdoor Learning on Diffusion Model

Authors: Weilin Lin, Nanjun Zhou, Yanyun Wang, Jianze Li, Hui Xiong, Li Liu | Published: 2025-02-17 | Updated: 2025-07-21

トリガーの検知

バックドア攻撃

性能評価

2025.02.17

文献データベース

Provably effective detection of effective data poisoning attacks

Authors: Jonathan Gallagher, Yasaman Esfandiari, Callen MacPhee, Michael Warren | Published: 2025-01-21

バックドア攻撃

ポイズニング

実験的検証

2025.01.21 2025.04.03

文献データベース

BADTV: Unveiling Backdoor Threats in Third-Party Task Vectors

Authors: Chia-Yi Hsu, Yu-Lin Tsai, Yu Zhe, Yan-Lun Chen, Chih-Hsun Lin, Chia-Mu Yu, Yang Zhang, Chun-Ying Huang, Jun Sakuma | Published: 2025-01-04

バックドア攻撃

防御手法

2025.01.04 2025.04.03

文献データベース

Mingling with the Good to Backdoor Federated Learning

Authors: Nuno Neves | Published: 2025-01-03

バックドア攻撃

ポイズニング

2025.01.03 2025.04.03

文献データベース

HoneypotNet: Backdoor Attacks Against Model Extraction

Authors: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma | Published: 2025-01-02

バックドア攻撃

モデル抽出攻撃

2025.01.02 2025.04.03

文献データベース

CL-Attack: Textual Backdoor Attacks via Cross-Lingual Triggers

Authors: Jingyi Zheng, Tianyi Hu, Tianshuo Cong, Xinlei He | Published: 2024-12-26 | Updated: 2025-03-31

LLMセキュリティ

バックドア攻撃

敵対的サンプルの脆弱性

2024.12.26 2025.04.03

文献データベース

A Backdoor Attack Scheme with Invisible Triggers Based on Model Architecture Modification

Authors: Yuan Ma, Xu Ma, Jiankang Wei, Jinmeng Tang, Xiaoyu Zhang, Yilun Lyu, Kehao Chen, Jingtong Huang | Published: 2024-12-22 | Updated: 2025-01-06

バックドア攻撃

ポイズニング

2024.12.22 2025.04.03

文献データベース

PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

Authors: Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B. Cohen, David Krueger, Fazl Barez | Published: 2024-10-11

LLM性能評価

バックドア攻撃

ポイズニング

2024.10.11 2025.04.03

文献データベース

CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models

Authors: Songning Lai, Jiayu Yang, Yu Huang, Lijie Hu, Tianlang Xue, Zhangyi Hu, Jiaxu Li, Haicheng Liao, Yutao Yue | Published: 2024-10-07

バックドア攻撃

ポイズニング

2024.10.07 2025.04.03

文献データベース