プロンプトインジェクション

Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space

Authors: Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei | Published: 2025-05-27

LLMの安全機構の解除

プロンプトインジェクション

攻撃の評価

2025.05.27

文献データベース

JavaSith: A Client-Side Framework for Analyzing Potentially Malicious Extensions in Browsers, VS Code, and NPM Packages

Authors: Avihay Cohen | Published: 2025-05-27

APIセキュリティ

クライアント側防御

プロンプトインジェクション

2025.05.27

文献データベース

TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent

Authors: Dominik Meier, Jan Philip Wahle, Paul Röttger, Terry Ruas, Bela Gipp | Published: 2025-05-26

プロンプトインジェクション

モデル抽出攻撃

透かし技術

2025.05.26

文献データベース

What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs

Authors: Sangyeop Kim, Yohan Lee, Yongwoo Song, Kimin Lee | Published: 2025-05-26

プロンプトインジェクション

モデル性能評価

大規模言語モデル

2025.05.26

文献データベース

Security Concerns for Large Language Models: A Survey

Authors: Miles Q. Li, Benjamin C. M. Fung | Published: 2025-05-24 | Updated: 2025-08-20

インダイレクトプロンプトインジェクション

プロンプトインジェクション

心理的操作

2025.05.24

文献データベース

Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models

Authors: Junjie Xiong, Changjia Zhu, Shuhang Lin, Chong Zhang, Yongfeng Zhang, Yao Liu, Lingyao Li | Published: 2025-05-22

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2025.05.22

文献データベース

CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework

Authors: Viet Pham, Thai Le | Published: 2025-05-22

LLMセキュリティ

プロンプトインジェクション

対抗的学習

2025.05.22

文献データベース

When Safety Detectors Aren’t Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques

Authors: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu | Published: 2025-05-22

LLMの安全機構の解除

プロンプトインジェクション

透かし除去技術

2025.05.22

文献データベース

BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models

Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22

LLMセキュリティ

テキスト生成手法

プロンプトインジェクション

2025.05.22

文献データベース

Finetuning-Activated Backdoors in LLMs

Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2025.05.22

文献データベース