防御手法 | ページ 2 | AIセキュリティポータル

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security

Authors: Muzhi Dai, Shixuan Liu, Zhiyuan Zhao, Junyu Gao, Hao Sun, Xuelong Li | Published: 2025-07-29

報酬メカニズム設計

強化学習最適化

防御手法

2025.07.29

文献データベース

Thought Purity: Defense Paradigm For Chain-of-Thought Attack

Authors: Zihao Xue, Zhen Bi, Long Ma, Zhenlin Hu, Yan Wang, Zhenfang Liu, Qing Sheng, Jie Xiao, Jungang Lou | Published: 2025-07-16

情報セキュリティ

脅威モデリング

防御手法

2025.07.16

文献データベース

Defending Against Prompt Injection With a Few DefensiveTokens

Authors: Sizhe Chen, Yizhu Wang, Nicholas Carlini, Chawin Sitawarin, David Wagner | Published: 2025-07-10

インダイレクトプロンプトインジェクション

プロンプトリーキング

防御手法

2025.07.10

文献データベース

May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks

Authors: Nishit V. Pandya, Andrey Labunets, Sicun Gao, Earlence Fernandes | Published: 2025-07-10

インダイレクトプロンプトインジェクション

敵対的攻撃

防御手法

2025.07.10

文献データベース

iThermTroj: Exploiting Intermittent Thermal Trojans in Multi-Processor System-on-Chips

Authors: Mehdi Elahi, Mohamed R. Elshamy, Abdel-Hameed Badawy, Ahmad Patooghy | Published: 2025-07-08

ハードウェアトロイの検出

脅威モデル

防御手法

2025.07.08

文献データベース

LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

Authors: Sahar Abdelnabi, Aideen Fay, Ahmed Salem, Egor Zverev, Kai-Chieh Liao, Chi-Huang Liu, Chun-Chih Kuo, Jannis Weigend, Danyael Manlangit, Alex Apostolov, Haris Umair, João Donato, Masayuki Kawakita, Athar Mahboob, Tran Huu Bach, Tsun-Han Chiang, Myeongjin Cho, Hajin Choi, Byeonghyeon Kim, Hyeonjin Lee, Benjamin Pannell, Conor McCauley, Mark Russinovich, Andrew Paverd, Giovanni Cherubin | Published: 2025-06-11

インダイレクトプロンプトインジェクション

プロンプトインジェクション

防御手法

2025.06.11

文献データベース

Design Patterns for Securing LLM Agents against Prompt Injections

Authors: Luca Beurer-Kellner, Beat Buesser Ana-Maria Creţu, Edoardo Debenedetti, Daniel Dobos, Daniel Fabian, Marc Fischer, David Froelicher, Kathrin Grosse, Daniel Naeff, Ezinwanne Ozoani, Andrew Paverd, Florian Tramèr, Václav Volhejn | Published: 2025-06-10 | Updated: 2025-06-11

インダイレクトプロンプトインジェクション

プロンプトインジェクション

防御手法

2025.06.10

文献データベース

Your Agent Can Defend Itself against Backdoor Attacks

Authors: Li Changjiang, Liang Jiacheng, Cao Bochuan, Chen Jinghui, Wang Ting | Published: 2025-06-10 | Updated: 2025-06-11

RAGへのポイズニング攻撃

バックドア攻撃対策

防御手法

2025.06.10

文献データベース

TokenBreak: Bypassing Text Classification Models Through Token Manipulation

Authors: Kasimir Schulz, Kenneth Yeung, Kieran Evans | Published: 2025-06-09

敵対的攻撃手法

防御手法

2025.06.09

文献データベース

MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models

Authors: Xueqi Cheng, Minxing Zheng, Shixiang Zhu, Yushun Dong | Published: 2025-06-03

モデル抽出攻撃

モデル抽出攻撃の検知

防御手法

2025.06.03

文献データベース