プロンプトリーキング

RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation

Authors: Benyamin Tafreshian | Published: 2025-11-24
インダイレクトプロンプトインジェクション
プロンプトリーキング
悪意のあるプロンプト

Q-MLLM: Vector Quantization for Robust Multimodal Large Language Model Security

Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun | Published: 2025-11-20
プロンプトリーキング
堅牢性向上手法
生成AI向け電子透かし

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Authors: Huseein Jawad, Nicolas Brunel | Published: 2025-11-20
プライバシー保護データマイニング
プロンプトリーキング
悪意のあるプロンプト

Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks

Authors: Zimo Ji, Xunguang Wang, Zongjie Li, Pingchuan Ma, Yudong Gao, Daoyuan Wu, Xincheng Yan, Tian Tian, Shuai Wang | Published: 2025-11-19
インダイレクトプロンプトインジェクション
プロンプトリーキング
適応型誤用検出

TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone

Authors: Xunjie Wang, Jiacheng Shi, Zihan Zhao, Yang Yu, Zhichao Hua, Jinyu Gu | Published: 2025-11-17
プロンプトリーキング
モデルDoS
性能評価指標

Black-Box Guardrail Reverse-engineering Attack

Authors: Hongwei Yao, Yun Xia, Shuo Shao, Haoran Shi, Tong Qiao, Cong Wang | Published: 2025-11-06
LLMの安全機構の解除
プロンプトリーキング
情報セキュリティ

Whisper Leak: a side-channel attack on Large Language Models

Authors: Geoff McDonald, Jonathan Bar Or | Published: 2025-11-05
トラフィック特性分析
プロンプトリーキング
大規模言語モデル

Fast-MIA: Efficient and Scalable Membership Inference for LLMs

Authors: Hiromu Takahashi, Shotaro Ishihara | Published: 2025-10-27
プライバシー保護手法
プロンプトリーキング
計算効率

Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies

Authors: Bin Wang, YiLu Zhong, MiDi Wan, WenJie Yu, YuanBing Ouyang, Yenan Huang, Hui Li | Published: 2025-10-27
ソフトウェアセキュリティ
プロンプトインジェクション
プロンプトリーキング

CircuitGuard: Mitigating LLM Memorization in RTL Code Generation Against IP Leakage

Authors: Nowfel Mashnoor, Mohammad Akyash, Hadi Kamali, Kimia Azar | Published: 2025-10-22
プライバシー保護機械学習
プロンプトリーキング
情報漏洩の原因