プロンプトインジェクション

ChatNVD: Advancing Cybersecurity Vulnerability Assessment with Large Language Models

Authors: Shivansh Chopra, Hussain Ahmad, Diksha Goel, Claudia Szabo | Published: 2024-12-06 | Updated: 2025-05-20

テキスト生成手法

プロンプトインジェクション

計算効率

2024.12.06

文献データベース

VLSBench: Unveiling Visual Leakage in Multimodal Safety

Authors: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao | Published: 2024-11-29 | Updated: 2025-01-17

プロンプトインジェクション

安全性アライメント

2024.11.29 2025.04.03

文献データベース

Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment

Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Tianrui Guan, Mengdi Wang, Ahmad Beirami, Furong Huang, Alvaro Velasquez, Dinesh Manocha, Amrit Singh Bedi | Published: 2024-11-27 | Updated: 2025-03-20

プロンプトインジェクション

安全性アライメント

敵対的攻撃

2024.11.27 2025.04.03

文献データベース

“Moralized” Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks

Authors: Libo Wang | Published: 2024-11-23 | Updated: 2025-03-20

プロンプトインジェクション

大規模言語モデル

2024.11.23 2025.04.03

文献データベース

JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit

Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24

ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いため

プロンプトインジェクション

大規模言語モデル

2024.11.17

文献データベース

MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue

Authors: Fengxiang Wang, Ranjie Duan, Peng Xiao, Xiaojun Jia, Shiji Zhao, Cheng Wei, YueFeng Chen, Chongwen Wang, Jialing Tao, Hang Su, Jun Zhu, Hui Xue | Published: 2024-11-06 | Updated: 2025-01-07

プロンプトインジェクション

マルチラウンド対話

2024.11.06 2025.04.03

文献データベース

SQL Injection Jailbreak: A Structural Disaster of Large Language Models

Authors: Jiawei Zhao, Kejiang Chen, Weiming Zhang, Nenghai Yu | Published: 2024-11-03 | Updated: 2025-05-21

プロンプトインジェクション

プロンプトリーキング

攻撃タイプ

2024.11.03

文献データベース

What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks

Authors: Nathalie Kirch, Constantin Weisser, Severin Field, Helen Yannakoudakis, Stephen Casper | Published: 2024-11-02 | Updated: 2025-05-14

LLMの安全機構の解除

プロンプトインジェクション

探索的攻撃

2024.11.02

文献データベース

Defense Against Prompt Injection Attack by Leveraging Attack Techniques

Authors: Yulin Chen, Haoran Li, Zihao Zheng, Yangqiu Song, Dekai Wu, Bryan Hooi | Published: 2024-11-01 | Updated: 2025-07-22

インダイレクトプロンプトインジェクション

プロンプトインジェクション

攻撃手法

2024.11.01

文献データベース

Jailbreaking and Mitigation of Vulnerabilities in Large Language Models

Authors: Benji Peng, Keyu Chen, Qian Niu, Ziqian Bi, Ming Liu, Pohsun Feng, Tianyang Wang, Lawrence K. Q. Yan, Yizhu Wen, Yichao Zhang, Caitlyn Heqi Yin | Published: 2024-10-20 | Updated: 2025-05-08

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2024.10.20

文献データベース