CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

TOP 文献データベース CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

arxiv

AIセキュリティポータルbot

文献データベースの情報は、自動的に収集されています。

Source

https://arxiv.org/abs/2510.17687

PDF

https://arxiv.org/pdf/2510.17687

文献情報

作者: Xu Zhang,Hao Li,Zhichao Lu
公開日: 2025-10-21
所属機関: City University of Hong Kong
所属の国: Hong Kong
会議名: Computing Research Repository (CoRR)

AIにより推定されたラベル

クエリ生成手法プロンプトインジェクション大規模言語モデル

※ こちらのラベルはAIによって自動的に追加されました。そのため、正確でないことがあります。
詳細は文献データベースについてをご覧ください。

Abstract

Multimodal Large Language Models (MLLMs) achieve strong reasoning and perception capabilities but are increasingly vulnerable to jailbreak attacks. While existing work focuses on explicit attacks, where malicious content resides in a single modality, recent studies reveal implicit attacks, in which benign text and image inputs jointly express unsafe intent. Such joint-modal threats are difficult to detect and remain underexplored, largely due to the scarcity of high-quality implicit data. We propose ImpForge, an automated red-teaming pipeline that leverages reinforcement learning with tailored reward modules to generate diverse implicit samples across 14 domains. Building on this dataset, we further develop CrossGuard, an intent-aware safeguard providing robust and comprehensive defense against both explicit and implicit threats. Extensive experiments across safe and unsafe benchmarks, implicit and explicit attacks, and multiple out-of-domain settings demonstrate that CrossGuard significantly outperforms existing defenses, including advanced MLLMs and guardrails, achieving stronger security while maintaining high utility. This offers a balanced and practical solution for enhancing MLLM robustness against real-world multimodal threats.

外部データセット

BeaverTails

JailBreakV

VLGuard

FigStep

MM-SafetyBench

SIUO

VQAv2