モデルの堅牢性

DREAM: Dynamic Red-teaming across Environments for AI Models

Authors: Liming Lu, Xiang Gu, Junyu Huang, Jiawei Du, Yunhuai Liu, Yongbin Zhou, Shuchao Pang | Published: 2025-12-22

モデルの堅牢性

動的攻撃評価手法

脆弱性攻撃手法

2025.12.22

文献データベース

Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations

Authors: Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2025-10-23

モデルの堅牢性

大規模言語モデル

攻撃手法評価

2025.10.23

文献データベース

SAID: Empowering Large Language Models with Self-Activating Internal Defense

Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23

プロンプトインジェクション

モデルの堅牢性

大規模言語モデル

2025.10.23

文献データベース

The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models

Authors: Euodia Dodd, Nataša Krčo, Igor Shilov, Yves-Alexandre de Montjoye | Published: 2025-10-22

プライバシー保護機械学習

モデルの堅牢性

低コストのメンバシップ推論手法

2025.10.22

文献データベース

Exploring the Effect of DNN Depth on Adversarial Attacks in Network Intrusion Detection Systems

Authors: Mohamed ElShehaby, Ashraf Matrawy | Published: 2025-10-22

ネットワーク脅威検出

モデルの堅牢性

モデルの頑健性保証

2025.10.22

文献データベース

Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection

Authors: Ariana Yi, Ce Zhou, Liyang Xiao, Qiben Yan | Published: 2025-10-22

プラットフォームアーキテクチャ

モデルの堅牢性

研究方法論

2025.10.22

文献データベース

SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection

Authors: Yang Feng, Xudong Pan | Published: 2025-10-17 | Updated: 2025-10-21

エージェント設計

ネットワーク脅威検出

モデルの堅牢性

2025.10.17

文献データベース

TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation

Authors: Tianyu Cui, Xinjie Lin, Sijia Li, Miao Chen, Qilei Yin, Qi Li, Ke Xu | Published: 2025-04-05 | Updated: 2025-04-15

LLM性能評価

タスク特化型チューニング

モデルの堅牢性

2025.04.05

文献データベース

Robust LLM safeguarding via refusal feature adversarial training

Authors: Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda | Published: 2024-09-30 | Updated: 2025-03-20

プロンプトインジェクション

モデルの堅牢性

敵対的学習

2024.09.30 2025.04.03

文献データベース

Stealing Part of a Production Language Model

Authors: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr | Published: 2024-03-11 | Updated: 2024-07-09

プロンプトリーキング

モデルの堅牢性

モデル抽出攻撃

2024.03.11 2025.04.03

文献データベース