DeepTrust: Multi-Step Classification through Dissimilar Adversarial Representations for Robust Android Malware Detection Authors: Daniel Pulido-Cortázar, Daniel Gibert, Felip Manyà | Published: 2025-10-14 バックドアモデルの検知モデルの頑健性保証ロバスト性 2025.10.14 文献データベース
Large Language Models Are Effective Code Watermarkers Authors: Rui Xu, Jiawei Chen, Zhaoxia Yin, Cong Kong, Xinpeng Zhang | Published: 2025-10-13 プロンプトリーキングロバスト性生成AI向け電子透かし 2025.10.13 文献データベース
Adversarial Robustness in One-Stage Learning-to-Defer Authors: Yannis Montreuil, Letian Yu, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi | Published: 2025-10-13 ロバスト性敵対的学習防御メカニズム 2025.10.13 文献データベース
MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation Authors: Weisen Jiang, Sinno Jialin Pan | Published: 2025-10-09 プロンプトインジェクションロバスト性防御メカニズム 2025.10.09 文献データベース
Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs Authors: Fatmazohra Rezkellah, Ramzi Dakhmouche | Published: 2025-10-03 | Updated: 2025-10-15 AIによる出力の識別ロバスト性大規模言語モデル 2025.10.03 文献データベース
Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son | Published: 2025-09-26 | Updated: 2025-10-09 AIによる出力のバイアスの検出ロバスト性防御メカニズム 2025.09.26 文献データベース
Adversarial Distilled Retrieval-Augmented Guarding Model for Online Malicious Intent Detection Authors: Yihao Guo, Haocheng Bian, Liutong Zhou, Ze Wang, Zhaoyi Zhang, Francois Kawala, Milan Dean, Ian Fischer, Yuantao Peng, Noyan Tokgozoglu, Ivan Barrientos, Riyaaz Shaik, Rachel Li, Chandru Venkataraman, Reza Shifteh Far, Moses Pawar, Venkat Sundaranatha, Michael Xu, Frank Chu | Published: 2025-09-18 RAGへのポイズニング攻撃オンライン学習ロバスト性 2025.09.18 文献データベース
TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions Authors: Wang YuHang, Junkang Guo, Aolei Liu, Kaihao Wang, Zaitong Wu, Zhenyu Liu, Wenfei Yin, Jian Liu | Published: 2025-03-02 | Updated: 2025-03-21 ロバスト性敵対的学習敵対的訓練 2025.03.02 2025.04.03 文献データベース
Reinforcement Unlearning Authors: Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Kun Gao, Zewei Shi, Sheng Shen, Wanlei Zhou, Minhui Xue | Published: 2023-12-26 | Updated: 2024-09-09 ロバスト性強化学習環境の複雑性 2023.12.26 2025.04.03 文献データベース
Understanding Overfitting in Adversarial Training via Kernel Regression Authors: Teng Zhang, Kang Li | Published: 2023-04-13 | Updated: 2023-04-19 ウォーターマーキングロバスト性正則化 2023.04.13 2025.04.03 文献データベース