プロンプトインジェクション

NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models

Authors: Chuhan Zhang, Ye Zhang, Bowen Shi, Yuyou Gan, Tianyu Du, Shouling Ji, Dazhan Deng, Yingcai Wu | Published: 2025-09-04

プロンプトインジェクション

神経細胞と安全性

防御メカニズム

2025.09.04

文献データベース

VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities

Authors: Weizhe Wang, Wei Ma, Qiang Hu, Yao Zhang, Jianfei Sun, Bin Wu, Yang Liu, Guangquan Xu, Lingxiao Jiang | Published: 2025-09-03

プロンプトインジェクション

大規模言語モデル

脆弱性分析

2025.09.03

文献データベース

PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance

Authors: Mengxiao Wang, Yuxuan Zhang, Guofei Gu | Published: 2025-08-28

インダイレクトプロンプトインジェクション

プロンプトインジェクション

プロンプトの検証

2025.08.28

文献データベース

Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning

Authors: Yanbo Dai, Zhenlan Ji, Zongjie Li, Kuan Li, Shuai Wang | Published: 2025-08-27

RAG

RAGへのポイズニング攻撃

プロンプトインジェクション

2025.08.27

文献データベース

Safety Alignment Should Be Made More Than Just A Few Attention Heads

Authors: Chao Huang, Zefeng Zhang, Juewei Yue, Quangang Li, Chuang Zhang, Tingwen Liu | Published: 2025-08-27

プロンプトインジェクション

大規模言語モデル

注意メカニズム

2025.08.27

文献データベース

Retrieval-Augmented Defense: Adaptive and Controllable Jailbreak Prevention for Large Language Models

Authors: Guangyu Yang, Jinghong Chen, Jingbiao Mei, Weizhe Lin, Bill Byrne | Published: 2025-08-22 | Updated: 2025-11-03

プロンプトインジェクション

プロンプトリーキング

脅威モデリング

2025.08.22

文献データベース

MAJIC: Markovian Adaptive Jailbreaking via Iterative Composition of Diverse Innovative Strategies

Authors: Weiwei Qi, Shuo Shao, Wei Gu, Tianhang Zheng, Puning Zhao, Zhan Qin, Kui Ren | Published: 2025-08-18

アルゴリズム設計

プロンプトインジェクション

攻撃タイプ

2025.08.18

文献データベース

Systematic Analysis of MCP Security

Authors: Yongjian Guo, Puzhuo Liu, Wanlun Ma, Zehang Deng, Xiaogang Zhu, Peng Di, Xi Xiao, Sheng Wen | Published: 2025-08-18

プロンプトインジェクション

攻撃チェーン分析

脆弱性評価手法

2025.08.18

文献データベース

Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

Authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu | Published: 2025-08-14

ソーシャルエンジニアリング攻撃

プロンプトインジェクション

大規模言語モデル

2025.08.14

文献データベース

Demystifying the Role of Rule-based Detection in AI Systems for Windows Malware Detection

Authors: Andrea Ponte, Luca Demetrio, Luca Oneto, Ivan Tesfai Ogbu, Battista Biggio, Fabio Roli | Published: 2025-08-13

プロンプトインジェクション

マルウェア検出手法

不均衡データセット

2025.08.13

文献データベース