プロンプトリーキング

Chasing Shadows: Pitfalls in LLM Security Research

Authors: Jonathan Evertz, Niklas Risse, Nicolai Neuer, Andreas Müller, Philipp Normann, Gaetano Sapia, Srishti Gupta, David Pape, Soumya Shaw, Devansh Srivastav, Christian Wressnegger, Erwin Quiring, Thorsten Eisenhofer, Daniel Arp, Lea Schönherr | Published: 2025-12-10
データリークやモデルの問題に関する分析を反映した新規ラベル
プロンプトインジェクション
プロンプトリーキング

In-Context Representation Hijacking

Authors: Itay Yona, Amir Sarid, Michael Karasik, Yossi Gandelsman | Published: 2025-12-03
サイバーセキュリティ
プロンプトインジェクション
プロンプトリーキング

CryptoQA: A Large-scale Question-answering Dataset for AI-assisted Cryptography

Authors: Mayar Elfares, Pascal Reisert, Tilman Dietz, Manpa Barman, Ahmed Zaki, Ralf Küsters, Andreas Bulling | Published: 2025-12-02
データセット生成
プロンプトインジェクション
プロンプトリーキング

COGNITION: From Evaluation to Defense against Multimodal LLM CAPTCHA Solvers

Authors: Junyu Wang, Changjia Zhu, Yuanbo Zhou, Lingyao Li, Xu He, Junjie Xiong | Published: 2025-12-02
プロンプトリーキング
モデル性能評価
モデル抽出攻撃

LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Language Models

Authors: Muhammad Usman Shahid, Chuadhry Mujeeb Ahmed, Rajiv Ranjan | Published: 2025-11-24
サイバーセキュリティの自動化
プロンプトリーキング
リスク評価手法

RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation

Authors: Benyamin Tafreshian | Published: 2025-11-24
インダイレクトプロンプトインジェクション
プロンプトリーキング
悪意のあるプロンプト

Q-MLLM: Vector Quantization for Robust Multimodal Large Language Model Security

Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun | Published: 2025-11-20
プロンプトリーキング
堅牢性向上手法
生成AI向け電子透かし

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization

Authors: Huseein Jawad, Nicolas Brunel | Published: 2025-11-20
プライバシー保護データマイニング
プロンプトリーキング
悪意のあるプロンプト

Taxonomy, Evaluation and Exploitation of IPI-Centric LLM Agent Defense Frameworks

Authors: Zimo Ji, Xunguang Wang, Zongjie Li, Pingchuan Ma, Yudong Gao, Daoyuan Wu, Xincheng Yan, Tian Tian, Shuai Wang | Published: 2025-11-19
インダイレクトプロンプトインジェクション
プロンプトリーキング
適応型誤用検出

TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone

Authors: Xunjie Wang, Jiacheng Shi, Zihan Zhao, Yang Yu, Zhichao Hua, Jinyu Gu | Published: 2025-11-17
プロンプトリーキング
モデルDoS
性能評価指標