悪意のあるコンテンツ生成

Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks

Authors: Xinkai Wang, Beibei Li, Zerui Shao, Ao Liu, Shouling Ji | Published: 2025-10-20

LLMの安全機構の解除

プロンプトインジェクション

悪意のあるコンテンツ生成

2025.10.20

文献データベース

Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning

Authors: Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu | Published: 2024-02-13

LLMセキュリティ

プロンプトインジェクション

悪意のあるコンテンツ生成

2024.02.13 2025.04.03

文献データベース

Jailbreaking Attack against Multimodal Large Language Model

Authors: Zhenxing Niu, Haodong Ren, Xinbo Gao, Gang Hua, Rong Jin | Published: 2024-02-04

プロンプトインジェクション

悪意のあるコンテンツ生成

情報収集手法

2024.02.04 2025.04.03

文献データベース

Malla: Demystifying Real-world Large Language Model Integrated Malicious Services

Authors: Zilong Lin, Jian Cui, Xiaojing Liao, XiaoFeng Wang | Published: 2024-01-06 | Updated: 2024-08-19

フィッシング攻撃

プロンプトインジェクション

悪意のあるコンテンツ生成

2024.01.06 2025.04.03

文献データベース

REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models

Authors: Ruisi Zhang, Shehzeen Samarah Hussain, Paarth Neekhara, Farinaz Koushanfar | Published: 2023-10-18 | Updated: 2024-04-08

データ生成

モデル設計

悪意のあるコンテンツ生成

2023.10.18 2025.04.03

文献データベース

Digital Deception: Generative Artificial Intelligence in Social Engineering and Phishing

Authors: Marc Schmitt, Ivan Flechais | Published: 2023-10-15

フィッシング攻撃の検出率

悪意のあるコンテンツ生成

高度なターゲティング

2023.10.15 2025.04.03

文献データベース

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin | Published: 2023-10-04

プロンプトインジェクション

安全性アライメント

悪意のあるコンテンツ生成

2023.10.04 2025.04.03

文献データベース

Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities

Authors: Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewis D. Griffin | Published: 2023-08-24

プロンプトインジェクション

悪意のあるコンテンツ生成

敵対的サンプル

2023.08.24 2025.04.03

文献データベース

Universal Decision-Based Black-Box Perturbations: Breaking Security-Through-Obscurity Defenses

Authors: Thomas A. Hogan, Bhavya Kailkhura | Published: 2018-11-09 | Updated: 2018-11-13

トリガーの検知

悪意のあるコンテンツ生成

攻撃の評価

2018.11.09 2025.04.03

文献データベース

AdVersarial: Perceptual Ad Blocking meets Adversarial Machine Learning

Authors: Florian Tramèr, Pascal Dupré, Gili Rusak, Giancarlo Pellegrino, Dan Boneh | Published: 2018-11-08 | Updated: 2019-08-26

ポイズニング

悪意のあるコンテンツ生成

敵対的学習

2018.11.08 2025.04.03

文献データベース