悪意のあるコンテンツ生成

Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning

Authors: Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu | Published: 2024-02-13
LLMセキュリティ
プロンプトインジェクション
悪意のあるコンテンツ生成

Jailbreaking Attack against Multimodal Large Language Model

Authors: Zhenxing Niu, Haodong Ren, Xinbo Gao, Gang Hua, Rong Jin | Published: 2024-02-04
プロンプトインジェクション
悪意のあるコンテンツ生成
情報収集手法

Malla: Demystifying Real-world Large Language Model Integrated Malicious Services

Authors: Zilong Lin, Jian Cui, Xiaojing Liao, XiaoFeng Wang | Published: 2024-01-06 | Updated: 2024-08-19
フィッシング攻撃
プロンプトインジェクション
悪意のあるコンテンツ生成

REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative Large Language Models

Authors: Ruisi Zhang, Shehzeen Samarah Hussain, Paarth Neekhara, Farinaz Koushanfar | Published: 2023-10-18 | Updated: 2024-04-08
データ生成
モデル設計
悪意のあるコンテンツ生成

Digital Deception: Generative Artificial Intelligence in Social Engineering and Phishing

Authors: Marc Schmitt, Ivan Flechais | Published: 2023-10-15
フィッシング攻撃の検出率
悪意のあるコンテンツ生成
高度なターゲティング

Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

Authors: Xianjun Yang, Xiao Wang, Qi Zhang, Linda Petzold, William Yang Wang, Xun Zhao, Dahua Lin | Published: 2023-10-04
プロンプトインジェクション
安全性アライメント
悪意のあるコンテンツ生成

Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities

Authors: Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewis D. Griffin | Published: 2023-08-24
プロンプトインジェクション
悪意のあるコンテンツ生成
敵対的サンプル

Universal Decision-Based Black-Box Perturbations: Breaking Security-Through-Obscurity Defenses

Authors: Thomas A. Hogan, Bhavya Kailkhura | Published: 2018-11-09 | Updated: 2018-11-13
トリガーの検知
悪意のあるコンテンツ生成
攻撃の評価

AdVersarial: Perceptual Ad Blocking meets Adversarial Machine Learning

Authors: Florian Tramèr, Pascal Dupré, Gili Rusak, Giancarlo Pellegrino, Dan Boneh | Published: 2018-11-08 | Updated: 2019-08-26
ポイズニング
悪意のあるコンテンツ生成
敵対的学習