Attack Evaluation

Exploit Tool Invocation Prompt for Tool Behavior Hijacking in LLM-Based Agentic System

Authors: Yu Liu, Yuchong Xie, Mingyu Luo, Zesen Liu, Zhixiang Zhang, Kaikai Zhang, Zongjie Li, Ping Chen, Shuai Wang, Dongdong She | Published: 2025-09-06 | Updated: 2025-09-15

Prompt Injection

Model DoS

Attack Evaluation

2025.09.06 2025.09.17

Literature Database

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Authors: Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin | Published: 2025-08-05

Prompt Injection

Attack Evaluation

音声モデルの脆弱性

2025.08.05 2025.08.07

Literature Database

Jailbreak Distillation: Renewable Safety Benchmarking

Authors: Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson | Published: 2025-05-28

Prompt Injection

Model Evaluation

Attack Evaluation

2025.05.28 2025.05.30

Literature Database

Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space

Authors: Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei | Published: 2025-05-27

Disabling Safety Mechanisms of LLM

Prompt Injection

Attack Evaluation

2025.05.27 2025.05.29

Literature Database

Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling

Authors: Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong | Published: 2025-05-27

Model Evaluation

Experimental Validation

Attack Evaluation

2025.05.27 2025.05.29

Literature Database

Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs

Authors: Shiyu Xiang, Ansen Zhang, Yanfei Cao, Yang Fan, Ronghao Chen | Published: 2025-02-26 | Updated: 2025-05-28

LLM Security

Prompt Injection

Attack Evaluation

2025.02.26 2025.05.30

Literature Database

Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API

Authors: Andrey Labunets, Nishit V. Pandya, Ashish Hooda, Xiaohan Fu, Earlence Fernandes | Published: 2025-01-16

Prompt Injection

Attack Evaluation

Optimization Problem

2025.01.16 2025.05.27

Literature Database

Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks

Authors: Yixiao Xu, Binxing Fang, Rui Wang, Yinghai Zhou, Shouling Ji, Yuan Liu, Mohan Li, Zhihong Tian | Published: 2025-01-16 | Updated: 2025-01-17

Watermarking

Model Extraction Attack

Attack Evaluation

2025.01.16 2025.05.27

Literature Database

Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards

Authors: Yangsibo Huang, Milad Nasr, Anastasios Angelopoulos, Nicholas Carlini, Wei-Lin Chiang, Christopher A. Choquette-Choo, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Ken Ziyu Liu, Ion Stoica, Florian Tramer, Chiyuan Zhang | Published: 2025-01-13

Cybersecurity

Large Language Model

Attack Evaluation

2025.01.13 2025.05.27

Literature Database

Learning-based Detection of GPS Spoofing Attack for Quadrotors

Authors: Pengyu Wang, Zhaohua Yang, Jialu Li, Ling Shi | Published: 2025-01-10

Cybersecurity

Experimental Validation

Attack Evaluation

2025.01.10 2025.05.27

Literature Database