モデルの堅牢性

Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations

Authors: Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2025-10-23
モデルの堅牢性
大規模言語モデル
攻撃手法評価

SAID: Empowering Large Language Models with Self-Activating Internal Defense

Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23
プロンプトインジェクション
モデルの堅牢性
大規模言語モデル

The Tail Tells All: Estimating Model-Level Membership Inference Vulnerability Without Reference Models

Authors: Euodia Dodd, Nataša Krčo, Igor Shilov, Yves-Alexandre de Montjoye | Published: 2025-10-22
プライバシー保護機械学習
モデルの堅牢性
低コストのメンバシップ推論手法

Exploring the Effect of DNN Depth on Adversarial Attacks in Network Intrusion Detection Systems

Authors: Mohamed ElShehaby, Ashraf Matrawy | Published: 2025-10-22
ネットワーク脅威検出
モデルの堅牢性
モデルの頑健性保証

Can You Trust What You See? Alpha Channel No-Box Attacks on Video Object Detection

Authors: Ariana Yi, Ce Zhou, Liyang Xiao, Qiben Yan | Published: 2025-10-22
プラットフォームアーキテクチャ
モデルの堅牢性
研究方法論

SentinelNet: Safeguarding Multi-Agent Collaboration Through Credit-Based Dynamic Threat Detection

Authors: Yang Feng, Xudong Pan | Published: 2025-10-17 | Updated: 2025-10-21
エージェント設計
ネットワーク脅威検出
モデルの堅牢性

TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation

Authors: Tianyu Cui, Xinjie Lin, Sijia Li, Miao Chen, Qilei Yin, Qi Li, Ke Xu | Published: 2025-04-05 | Updated: 2025-04-15
LLM性能評価
タスク特化型チューニング
モデルの堅牢性

Robust LLM safeguarding via refusal feature adversarial training

Authors: Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda | Published: 2024-09-30 | Updated: 2025-03-20
プロンプトインジェクション
モデルの堅牢性
敵対的学習

Stealing Part of a Production Language Model

Authors: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr | Published: 2024-03-11 | Updated: 2024-07-09
プロンプトリーキング
モデルの堅牢性
モデル抽出攻撃

Data Reconstruction Attacks and Defenses: A Systematic Evaluation

Authors: Sheng Liu, Zihan Wang, Yuxiao Chen, Qi Lei | Published: 2024-02-13 | Updated: 2025-03-22
プライバシー分析
モデルの堅牢性
敵対的攻撃