プロンプトインジェクション

Decoupled Alignment for Robust Plug-and-Play Adaptation

Authors: Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry Yao-Chieh Hu, Xinyu Xing, Han Liu | Published: 2024-06-03 | Updated: 2024-06-06
LLM性能評価
プロンプトインジェクション
モデル性能評価

BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards

Authors: Diego Dorn, Alexandre Variengien, Charbel-Raphaël Segerie, Vincent Corruble | Published: 2024-06-03
LLMセキュリティ
コンテンツモデレーション
プロンプトインジェクション

Exploring Vulnerabilities and Protections in Large Language Models: A Survey

Authors: Frank Weizhen Liu, Chenhui Hu | Published: 2024-06-01
LLMセキュリティ
プロンプトインジェクション
防御手法

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

Authors: Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin | Published: 2024-05-31 | Updated: 2024-06-05
LLMセキュリティ
ウォーターマーキング
プロンプトインジェクション

Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks

Authors: Chen Xiong, Xiangyu Qi, Pin-Yu Chen, Tsung-Yi Ho | Published: 2024-05-30 | Updated: 2025-06-04
DPPセット生成
プロンプトインジェクション
攻撃手法

Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu | Published: 2024-05-27 | Updated: 2024-10-05
LLMセキュリティ
バックドア攻撃
プロンプトインジェクション

Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models

Authors: Xijie Huang, Xinyuan Wang, Hantao Zhang, Yinghao Zhu, Jiawen Xi, Jingkun An, Hao Wang, Hao Liang, Chengwei Pan | Published: 2024-05-26 | Updated: 2024-08-21
プロンプトインジェクション
医療AIの脅威
攻撃手法

Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character

Authors: Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu | Published: 2024-05-25 | Updated: 2024-06-12
LLMセキュリティ
プロンプトインジェクション
攻撃手法

Harnessing Large Language Models for Software Vulnerability Detection: A Comprehensive Benchmarking Study

Authors: Karl Tamberg, Hayretdin Bahsi | Published: 2024-05-24
LLM性能評価
プロンプトインジェクション
脆弱性管理

ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users

Authors: Guanlin Li, Kangjie Chen, Shudong Zhang, Jie Zhang, Tianwei Zhang | Published: 2024-05-24 | Updated: 2024-10-11
コンテンツモデレーション
プロンプトインジェクション
倫理的ガイドライン遵守