攻撃の評価

Exploit Tool Invocation Prompt for Tool Behavior Hijacking in LLM-Based Agentic System

Authors: Yu Liu, Yuchong Xie, Mingyu Luo, Zesen Liu, Zhixiang Zhang, Kaikai Zhang, Zongjie Li, Ping Chen, Shuai Wang, Dongdong She | Published: 2025-09-06 | Updated: 2025-09-15

プロンプトインジェクション

モデルDoS

攻撃の評価

2025.09.06

文献データベース

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Authors: Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin | Published: 2025-08-05

プロンプトインジェクション

攻撃の評価

音声モデルの脆弱性

2025.08.05

文献データベース

Jailbreak Distillation: Renewable Safety Benchmarking

Authors: Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson | Published: 2025-05-28

プロンプトインジェクション

モデル評価

攻撃の評価

2025.05.28

文献データベース

Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space

Authors: Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei | Published: 2025-05-27

LLMの安全機構の解除

プロンプトインジェクション

攻撃の評価

2025.05.27

文献データベース

Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling

Authors: Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong | Published: 2025-05-27

モデル評価

実験的検証

攻撃の評価

2025.05.27

文献データベース

Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs

Authors: Shiyu Xiang, Ansen Zhang, Yanfei Cao, Yang Fan, Ronghao Chen | Published: 2025-02-26 | Updated: 2025-05-28

LLMセキュリティ

プロンプトインジェクション

攻撃の評価

2025.02.26

文献データベース

Computing Optimization-Based Prompt Injections Against Closed-Weights Models By Misusing a Fine-Tuning API

Authors: Andrey Labunets, Nishit V. Pandya, Ashish Hooda, Xiaohan Fu, Earlence Fernandes | Published: 2025-01-16

プロンプトインジェクション

攻撃の評価

最適化問題

2025.01.16 2025.04.03

文献データベース

Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks

Authors: Yixiao Xu, Binxing Fang, Rui Wang, Yinghai Zhou, Shouling Ji, Yuan Liu, Mohan Li, Zhihong Tian | Published: 2025-01-16 | Updated: 2025-01-17

ウォーターマーキング

モデル抽出攻撃

攻撃の評価

2025.01.16 2025.04.03

文献データベース

Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards

Authors: Yangsibo Huang, Milad Nasr, Anastasios Angelopoulos, Nicholas Carlini, Wei-Lin Chiang, Christopher A. Choquette-Choo, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Ken Ziyu Liu, Ion Stoica, Florian Tramer, Chiyuan Zhang | Published: 2025-01-13

サイバーセキュリティ

大規模言語モデル

攻撃の評価

2025.01.13 2025.04.03

文献データベース

Learning-based Detection of GPS Spoofing Attack for Quadrotors

Authors: Pengyu Wang, Zhaohua Yang, Jialu Li, Ling Shi | Published: 2025-01-10

サイバーセキュリティ

実験的検証

攻撃の評価

2025.01.10 2025.04.03

文献データベース