プロンプトリーキング

Depth Gives a False Sense of Privacy: LLM Internal States Inversion

Authors: Tian Dong, Yan Meng, Shaofeng Li, Guoxing Chen, Zhen Liu, Haojin Zhu | Published: 2025-07-22
プロンプトインジェクション
プロンプトリーキング
攻撃手法

Talking Like a Phisher: LLM-Based Attacks on Voice Phishing Classifiers

Authors: Wenhao Li, Selvakumar Manickam, Yung-wey Chong, Shankar Karuppayah | Published: 2025-07-22
プロンプトリーキング
心理的操作
敵対的攻撃手法

Distilled Large Language Model in Confidential Computing Environment for System-on-Chip Design

Authors: Dong Ben, Hui Feng, Qian Wang | Published: 2025-07-22
プロンプトリーキング
モデル抽出攻撃
性能低下の要因

PhishIntentionLLM: Uncovering Phishing Website Intentions through Multi-Agent Retrieval-Augmented Generation

Authors: Wenhao Li, Selvakumar Manickam, Yung-wey Chong, Shankar Karuppayah | Published: 2025-07-21
RAGへのポイズニング攻撃
フィッシング攻撃の意図
プロンプトリーキング

MAD-Spear: A Conformity-Driven Prompt Injection Attack on Multi-Agent Debate Systems

Authors: Yu Cui, Hongyang Du | Published: 2025-07-17
セキュリティ戦略生成
プロンプトリーキング
攻撃者の行動分析

Defending Against Prompt Injection With a Few DefensiveTokens

Authors: Sizhe Chen, Yizhu Wang, Nicholas Carlini, Chawin Sitawarin, David Wagner | Published: 2025-07-10
インダイレクトプロンプトインジェクション
プロンプトリーキング
防御手法

PenTest2.0: Towards Autonomous Privilege Escalation Using GenAI

Authors: Haitham S. Al-Sinani, Chris J. Mitchell | Published: 2025-07-09
インダイレクトプロンプトインジェクション
プロンプトの検証
プロンプトリーキング

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

Authors: Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song | Published: 2025-07-08
プロンプトリーキング
メモリ化メカニズム
大規模言語モデル

Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection

Authors: Lei Yu, Zhirong Huang, Hang Yuan, Shiqi Cheng, Li Yang, Fengjun Zhang, Chenjie Shen, Jiajia Ma, Jingyuan Zhang, Junyi Lu, Chun Zuo | Published: 2025-06-23
スマートコントラクト脆弱性
プロンプトリーキング
大規模言語モデル

Watermarking LLM-Generated Datasets in Downstream Tasks

Authors: Yugeng Liu, Tianshuo Cong, Michael Backes, Zheng Li, Yang Zhang | Published: 2025-06-16
プロンプトリーキング
モデル保護手法
生成AI向け電子透かし