大規模言語モデル

Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security

Authors: Hajun Kim, Hyunsik Na, Daeseon Choi | Published: 2025-11-18

プロンプトエンジニアリング

大規模言語モデル

悪意のあるプロンプト

2025.11.18

文献データベース

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu | Published: 2025-11-17

プロンプトインジェクション

大規模言語モデル

進化的アルゴリズム

2025.11.17

文献データベース

Specification-Guided Vulnerability Detection with Large Language Models

Authors: Hao Zhu, Jia Li, Cuiyun Gao, Jiaru Qian, Yihong Dong, Huanyu Liu, Lecheng Wang, Ziliang Wang, Xiaolong Hu, Ge Li | Published: 2025-11-06

プロンプトインジェクション

大規模言語モデル

脆弱性検出手法

2025.11.06

文献データベース

Whisper Leak: a side-channel attack on Large Language Models

Authors: Geoff McDonald, Jonathan Bar Or | Published: 2025-11-05

トラフィック特性分析

プロンプトリーキング

大規模言語モデル

2025.11.05

文献データベース

Beyond Text: Multimodal Jailbreaking of Vision-Language and Audio Models through Perceptually Simple Transformations

Authors: Divyanshu Kumar, Shreyas Jena, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi | Published: 2025-10-23

モデルの堅牢性

大規模言語モデル

攻撃手法評価

2025.10.23

文献データベース

SAID: Empowering Large Language Models with Self-Activating Internal Defense

Authors: Yulong Chen, Yadong Liu, Jiawen Zhang, Mu Li, Chao Huang, Jie Wen | Published: 2025-10-23

プロンプトインジェクション

モデルの堅牢性

大規模言語モデル

2025.10.23

文献データベース

HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models

Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-21

クエリ生成手法

大規模言語モデル

脱獄手法

2025.10.21

文献データベース

VERA-V: Variational Inference Framework for Jailbreaking Vision-Language Models

Authors: Qilin Liao, Anamika Lochab, Ruqi Zhang | Published: 2025-10-20

モデルDoS

大規模言語モデル

未ターゲット毒性攻撃

2025.10.20

文献データベース

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Authors: Xu Zhang, Hao Li, Zhichao Lu | Published: 2025-10-20

クエリ生成手法

プロンプトインジェクション

大規模言語モデル

2025.10.20

文献データベース

SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models

Authors: Hanbin Hong, Shuya Feng, Nima Naderloui, Shenao Yan, Jingyu Zhang, Biying Liu, Ali Arastehfard, Heqing Huang, Yuan Hong | Published: 2025-10-17 | Updated: 2025-10-21

LLMセキュリティ

シナリオベースの悪用

大規模言語モデル

2025.10.17

文献データベース