Prompt validation

PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance

Authors: Mengxiao Wang, Yuxuan Zhang, Guofei Gu | Published: 2025-08-28

Indirect Prompt Injection

Prompt Injection

Prompt validation

2025.08.28 2025.09.01

Literature Database

Attacking interpretable NLP systems

Authors: Eldor Abdukhamidov, Tamer Abuhmed, Joanna C. S. Santos, Mohammed Abuhamad | Published: 2025-07-22

Prompt Injection

Prompt validation

Adversarial Attack Methods

2025.07.22 2025.07.24

Literature Database

AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models

Authors: Yu Wang, Yijian Liu, Liheng Ji, Han Luo, Wenjie Li, Xiaofei Zhou, Chiyun Feng, Puji Wang, Yuhan Cao, Geyuan Zhang, Xiaojian Li, Rongwu Xu, Yilei Chen, Tianxing He | Published: 2025-07-13 | Updated: 2025-09-30

Algorithm

Hallucination

Prompt validation

2025.07.13 2025.10.02

Literature Database

GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing

Authors: Peiyan Zhang, Haibo Jin, Liying Kang, Haohan Wang | Published: 2025-07-10

Prompt validation

Large Language Model

Performance Evaluation Metrics

2025.07.10 2025.07.12

Literature Database

PenTest2.0: Towards Autonomous Privilege Escalation Using GenAI

Authors: Haitham S. Al-Sinani, Chris J. Mitchell | Published: 2025-07-09

Indirect Prompt Injection

Prompt validation

Prompt leaking

2025.07.09 2025.07.11

Literature Database

A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures

Authors: Dezhang Kong, Shi Lin, Zhenhua Xu, Zhebo Wang, Minghao Li, Yufeng Li, Yilun Zhang, Zeyang Sha, Yuyuan Li, Changting Lin, Xun Wang, Xuan Liu, Muhammad Khurram Khan, Ningyu Zhang, Chaochao Chen, Meng Han | Published: 2025-06-24

AIエージェント通信

Poisoning attack on RAG

Prompt validation

2025.06.24 2025.06.26

Literature Database

Adversarial Suffix Filtering: a Defense Pipeline for LLMs

Authors: David Khachaturov, Robert Mullins | Published: 2025-05-14

Prompt validation

倫理基準遵守

Attack Detection Method

2025.05.14 2025.05.28

Literature Database

Defending against Indirect Prompt Injection by Instruction Detection

Authors: Tongyu Wen, Chenglong Wang, Xiyuan Yang, Haoyu Tang, Yueqi Xie, Lingjuan Lyu, Zhicheng Dou, Fangzhao Wu | Published: 2025-05-08 | Updated: 2025-09-17

Prompt validation

Evaluation Method

Watermarking Technology

2025.05.08 2025.09.19

Literature Database

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction

Authors: Yulin Chen, Haoran Li, Yuan Sui, Yue Liu, Yufei He, Yangqiu Song, Bryan Hooi | Published: 2025-04-29

Indirect Prompt Injection

Prompt validation

Attack Method

2025.04.29 2025.05.27

Literature Database

Watermarking Needs Input Repetition Masking

Authors: David Khachaturov, Robert Mullins, Ilia Shumailov, Sumanth Dathathri | Published: 2025-04-16

LLM Performance Evaluation

Prompt validation

Watermark Design

2025.04.16 2025.05.27

Literature Database