敵対的攻撃

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Ahmad Beirami, Furong Huang, Alvaro Velasquez, Dinesh Manocha, Amrit Singh Bedi | Published: 2024-11-27 | Updated: 2025-03-20

プロンプトインジェクション

安全性アライメント

敵対的攻撃

2024.11.27 2025.04.03

文献データベース

Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning

Authors: Ye Li, Yanchao Zhao, Chengcheng Zhu, Jiale Zhang | Published: 2024-09-29 | Updated: 2025-03-22

IDマッピングの構築

バックドアモデルの検知

敵対的攻撃

2024.09.29 2025.04.03

文献データベース

Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)

Authors: Apurv Verma, Satyapriya Krishna, Sebastian Gehrmann, Madhavan Seshadri, Anu Pradhan, Tom Ault, Leslie Barrett, David Rabinowitz, John Doucette, NhatHai Phan | Published: 2024-07-20 | Updated: 2025-07-10

プロンプトインジェクション

プロンプトの検証

敵対的攻撃

2024.07.20

文献データベース

Data Reconstruction Attacks and Defenses: A Systematic Evaluation

Authors: Sheng Liu, Zihan Wang, Yuxiao Chen, Qi Lei | Published: 2024-02-13 | Updated: 2025-03-22

プライバシー分析

モデルの堅牢性

敵対的攻撃

2024.02.13 2025.04.03

文献データベース

Explainable and Transferable Adversarial Attack for ML-Based Network Intrusion Detectors

Authors: Hangsheng Zhang, Dongqi Han, Yinlong Liu, Zhiliang Wang, Jiyan Sun, Shangyuan Zhuang, Jiqiang Liu, Jinsong Dong | Published: 2024-01-19

ポイズニング

モデルの解釈性

敵対的攻撃

2024.01.19 2025.04.03

文献データベース

PuriDefense: Randomized Local Implicit Adversarial Purification for Defending Black-box Query-based Attacks

Authors: Ping Guo, Zhiyuan Yang, Xi Lin, Qingchuan Zhao, Qingfu Zhang | Published: 2024-01-19

ウォーターマーキング

敵対的攻撃

防御手法

2024.01.19 2025.04.03

文献データベース

A provable initialization and robust clustering method for general mixture models

Authors: Soham Jana, Jianqing Fan, Sanjeev Kulkarni | Published: 2024-01-10 | Updated: 2024-10-23

クラスタリング手法

ロバスト性評価

敵対的攻撃

2024.01.10 2025.04.03

文献データベース

Evasive Hardware Trojan through Adversarial Power Trace

Authors: Behnam Omidi, Khaled N. Khasawneh, Ihsen Alouani | Published: 2024-01-04

ウォーターマーキング

敵対的攻撃

透かしの耐久性

2024.01.04 2025.04.03

文献データベース

Attack Tree Analysis for Adversarial Evasion Attacks

Authors: Yuki Yamaguchi, Toshiaki Aoki | Published: 2023-12-28

ポイズニング

敵対的攻撃

透かし評価

2023.12.28 2025.04.03

文献データベース

MalPurifier: Enhancing Android Malware Detection with Adversarial Purification against Evasion Attacks

Authors: Yuyang Zhou, Guang Cheng, Zongyao Chen, Shui Yu | Published: 2023-12-11

ポイズニング

ロバスト性評価

敵対的攻撃

2023.12.11 2025.04.03

文献データベース