Prompt leaking

Defending Against Prompt Injection With a Few DefensiveTokens

Authors: Sizhe Chen, Yizhu Wang, Nicholas Carlini, Chawin Sitawarin, David Wagner | Published: 2025-07-10

Indirect Prompt Injection

Prompt leaking

Defense Method

2025.07.10 2025.07.12

Literature Database

PenTest2.0: Towards Autonomous Privilege Escalation Using GenAI

Authors: Haitham S. Al-Sinani, Chris J. Mitchell | Published: 2025-07-09

Indirect Prompt Injection

Prompt validation

Prompt leaking

2025.07.09 2025.07.11

Literature Database

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

Authors: Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song | Published: 2025-07-08

Prompt leaking

メモリ化メカニズム

Large Language Model

2025.07.08 2025.07.10

Literature Database

VERA: Variational Inference Framework for Jailbreaking Large Language Models

Authors: Anamika Lochab, Lu Yan, Patrick Pynadath, Xiangyu Zhang, Ruqi Zhang | Published: 2025-06-27 | Updated: 2025-11-06

Prompt Injection

Prompt leaking

Challenges of Generative Models

2025.06.27 2025.11.08

Literature Database

Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection

Authors: Lei Yu, Zhirong Huang, Hang Yuan, Shiqi Cheng, Li Yang, Fengjun Zhang, Chenjie Shen, Jiajia Ma, Jingyuan Zhang, Junyi Lu, Chun Zuo | Published: 2025-06-23

スマートコントラクト脆弱性

Prompt leaking

Large Language Model

2025.06.23 2025.06.25

Literature Database

Watermarking LLM-Generated Datasets in Downstream Tasks

Authors: Yugeng Liu, Tianshuo Cong, Michael Backes, Zheng Li, Yang Zhang | Published: 2025-06-16

Prompt leaking

Model Protection Methods

Digital Watermarking for Generative AI

2025.06.16 2025.06.18

Literature Database

Using LLMs for Security Advisory Investigations: How Far Are We?

Authors: Bayu Fedra Abdullah, Yusuf Sulistyo Nugroho, Brittany Reid, Raula Gaikovina Kula, Kazumasa Shimari, Kenichi Matsumoto | Published: 2025-06-16

Advice Provision

Hallucination

Prompt leaking

2025.06.16 2025.06.18

Literature Database

Detecting Hard-Coded Credentials in Software Repositories via LLMs

Authors: Chidera Biringa, Gokhan Kul | Published: 2025-06-16

Software Security

Performance Evaluation

Prompt leaking

2025.06.16 2025.06.18

Literature Database

Exploring the Secondary Risks of Large Language Models

Authors: Jiawei Chen, Zhengwei Fang, Xiao Yang, Chao Yu, Zhaoxia Yin, Hang Su | Published: 2025-06-14 | Updated: 2025-09-25

Indirect Prompt Injection

Prompt leaking

Generative Model

2025.06.14 2025.09.27

Literature Database

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

Authors: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng | Published: 2025-06-12

Data Collection Method

Prompt leaking

Calculation of Output Harmfulness

2025.06.12 2025.06.14

Literature Database