防御メカニズム

Injection, Attack and Erasure: Revocable Backdoor Attacks via Machine Unlearning

Authors: Baogang Song, Dongdong Zhao, Jianwen Xiang, Qiben Xu, Zizhuo Yu | Published: 2025-10-15
バックドア攻撃
モデル保護手法
防御メカニズム

PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities

Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13
セキュリティ分析手法
大規模言語モデル
防御メカニズム

CoSPED: Consistent Soft Prompt Targeted Data Extraction and Defense

Authors: Yang Zhuochen, Fok Kar Wai, Thing Vrizlynn | Published: 2025-10-13
プライバシー保護技術
学習の改善
防御メカニズム

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Authors: Tianze Wang, Zhaoyu Chen, Jian Du, Yingtai Xiao, Linjun Zhang, Qiang Yan | Published: 2025-10-13
データ保護手法
プライバシー保護技術
防御メカニズム

Adversarial Robustness in One-Stage Learning-to-Defer

Authors: Yannis Montreuil, Letian Yu, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi | Published: 2025-10-13
ロバスト性
敵対的学習
防御メカニズム

A Novel Ensemble Learning Approach for Enhanced IoT Attack Detection: Redefining Security Paradigms in Connected Systems

Authors: Hikmat A. M. Abdeljaber, Md. Alamgir Hossain, Sultan Ahmad, Ahmed Alsanad, Md Alimul Haque, Sudan Jha, Jabeen Nazeer | Published: 2025-10-09
IoTセキュリティ課題
防御メカニズム
防御効果分析

MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

Authors: Weisen Jiang, Sinno Jialin Pan | Published: 2025-10-09
プロンプトインジェクション
ロバスト性
防御メカニズム

Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach

Authors: Xiangfang Li, Yu Wang, Bo Li | Published: 2025-10-01 | Updated: 2025-10-09
インダイレクトプロンプトインジェクション
プロンプトリーキング
防御メカニズム

Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment

Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son | Published: 2025-09-26 | Updated: 2025-10-09
AIによる出力のバイアスの検出
ロバスト性
防御メカニズム

Adversarial Defense in Cybersecurity: A Systematic Review of GANs for Threat Detection and Mitigation

Authors: Tharcisse Ndayipfukamiye, Jianguo Ding, Doreen Sebastian Sarwatt, Adamu Gaston Philipo, Huansheng Ning | Published: 2025-09-24 | Updated: 2025-09-30
プロンプトインジェクション
モデルの頑健性保証
防御メカニズム