Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning Authors: Baogang Song, Dongdong Zhao, Jianwen Xiang, Qiben Xu, Zizhuo Yu | Published: 2025-10-15 バックドア攻撃モデル保護手法防御メカニズム 2025.10.15 文献データベース
Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems Authors: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang | Published: 2025-10-14 バイアスプロンプトリーキング大規模言語モデル 2025.10.14 文献データベース
Traveling Salesman-Based Token Ordering Improves Stability in Homomorphically Encrypted Language Models Authors: Donghwan Rho, Sieun Seo, Hyewon Sung, Chohong Min, Ernest K. Ryu | Published: 2025-10-14 トークン分布分析メンバーシップ推論大規模言語モデル 2025.10.14 文献データベース
DeepTrust: Multi-Step Classification through Dissimilar Adversarial Representations for Robust Android Malware Detection Authors: Daniel Pulido-Cortázar, Daniel Gibert, Felip Manyà | Published: 2025-10-14 バックドアモデルの検知モデルの頑健性保証ロバスト性 2025.10.14 文献データベース
PromptLocate: Localizing Prompt Injection Attacks Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong | Published: 2025-10-14 プロンプトの検証大規模言語モデル評価指標 2025.10.14 文献データベース
Fairness-Constrained Optimization Attack in Federated Learning Authors: Harsh Kasyap, Minghong Fang, Zhuqing Liu, Carsten Maple, Somanath Tripathy | Published: 2025-10-14 トリガーの検知バイアス連合学習 2025.10.14 文献データベース
PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13 セキュリティ分析手法大規模言語モデル防御メカニズム 2025.10.13 文献データベース
Uncertainty-Aware, Risk-Adaptive Access Control for Agentic Systems using an LLM-Judged TBAC Model Authors: Charles Fleming, Ashish Kundu, Ramana Kompella | Published: 2025-10-13 リスク管理不確実性評価意思決定ダイナミクス 2025.10.13 文献データベース
Large Language Models Are Effective Code Watermarkers Authors: Rui Xu, Jiawei Chen, Zhaoxia Yin, Cong Kong, Xinpeng Zhang | Published: 2025-10-13 プロンプトリーキングロバスト性生成AI向け電子透かし 2025.10.13 文献データベース
Evaluating Line-level Localization Ability of Learning-based Code Vulnerability Detection Models Authors: Marco Pintore, Giorgio Piras, Angelo Sotgiu, Maura Pintor, Battista Biggio | Published: 2025-10-13 プログラム理解特徴重要度分析説明可能性に対する攻撃 2025.10.13 文献データベース