DREAM: Dynamic Red-teaming across Environments for AI Models Authors: Liming Lu, Xiang Gu, Junyu Huang, Jiawei Du, Yunhuai Liu, Yongbin Zhou, Shuchao Pang | Published: 2025-12-22 モデルの堅牢性動的攻撃評価手法脆弱性攻撃手法 2025.12.22 文献データベース
Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations Authors: Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2025-10-23 モデルの堅牢性大規模言語モデル攻撃手法評価 2025.10.23 文献データベース
SAID: Empowering Large Language Models with Self-Activating Internal Defense Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23 プロンプトインジェクションモデルの堅牢性大規模言語モデル 2025.10.23 文献データベース
The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models Authors: Euodia Dodd, Nataša Krčo, Igor Shilov, Yves-Alexandre de Montjoye | Published: 2025-10-22 プライバシー保護機械学習モデルの堅牢性低コストのメンバシップ推論手法 2025.10.22 文献データベース
Exploring the Effect of DNN Depth on Adversarial Attacks in Network Intrusion Detection Systems Authors: Mohamed ElShehaby, Ashraf Matrawy | Published: 2025-10-22 ネットワーク脅威検出モデルの堅牢性モデルの頑健性保証 2025.10.22 文献データベース
Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection Authors: Ariana Yi, Ce Zhou, Liyang Xiao, Qiben Yan | Published: 2025-10-22 プラットフォームアーキテクチャモデルの堅牢性研究方法論 2025.10.22 文献データベース
SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection Authors: Yang Feng, Xudong Pan | Published: 2025-10-17 | Updated: 2025-10-21 エージェント設計ネットワーク脅威検出モデルの堅牢性 2025.10.17 文献データベース
TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation Authors: Tianyu Cui, Xinjie Lin, Sijia Li, Miao Chen, Qilei Yin, Qi Li, Ke Xu | Published: 2025-04-05 | Updated: 2025-04-15 LLM性能評価タスク特化型チューニングモデルの堅牢性 2025.04.05 文献データベース
Robust LLM safeguarding via refusal feature adversarial training Authors: Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda | Published: 2024-09-30 | Updated: 2025-03-20 プロンプトインジェクションモデルの堅牢性敵対的学習 2024.09.30 2025.04.03 文献データベース
Stealing Part of a Production Language Model Authors: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr | Published: 2024-03-11 | Updated: 2024-07-09 プロンプトリーキングモデルの堅牢性モデル抽出攻撃 2024.03.11 2025.04.03 文献データベース