大規模言語モデル

PromptLocate: Localizing Prompt Injection Attacks

Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong | Published: 2025-10-14

プロンプトの検証

大規模言語モデル

評価指標

2025.10.14

文献データベース

PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities

Authors: Zicheng Liu, Lige Huang, Jie Zhang, Dongrui Liu, Yuan Tian, Jing Shao | Published: 2025-10-13

セキュリティ分析手法

大規模言語モデル

防御メカニズム

2025.10.13

文献データベース

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Authors: Fatmazohra Rezkellah, Ramzi Dakhmouche | Published: 2025-10-03 | Updated: 2025-10-15

AIによる出力の識別

ロバスト性

大規模言語モデル

2025.10.03

文献データベース

NEXUS: Network Exploration for eXploiting Unsafe Sequences in Multi-Turn LLM Jailbreaks

Authors: Javad Rafiei Asl, Sidhant Narula, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-03 | Updated: 2025-10-21

プロンプトインジェクション

大規模言語モデル

脱獄手法

2025.10.03

文献データベース

Bypassing Prompt Guards in Production with Controlled-Release Prompting

Authors: Jaiden Fairoze, Sanjam Garg, Keewoo Lee, Mingyuan Wang | Published: 2025-10-02

プロンプトインジェクション

大規模言語モデル

構造的攻撃

2025.10.02

文献データベース

EvoMail: Self-Evolving Cognitive Agents for Adaptive Spam and Phishing Email Defense

Authors: Wei Huang, De-Tian Chu, Lin-Yuan Bai, Wei Kang, Hai-Tao Zhang, Bo Li, Zhi-Mo Han, Jing Ge, Hai-Feng Lin | Published: 2025-09-25

フィッシング攻撃

大規模言語モデル

自己進化型フレームワーク

2025.09.25

文献データベース

LLM-based Vulnerability Discovery through the Lens of Code Metrics

Authors: Felix Weissberg, Lukas Pirch, Erik Imgrund, Jonas Möller, Thorsten Eisenhofer, Konrad Rieck | Published: 2025-09-23

コードメトリクス評価

プロンプトインジェクション

大規模言語モデル

2025.09.23

文献データベース

LLM Jailbreak Detection for (Almost) Free!

Authors: Guorui Chen, Yifan Xia, Xiaojun Jia, Zhijiang Li, Philip Torr, Jindong Gu | Published: 2025-09-18

大規模言語モデル

評価手法

透かし技術

2025.09.18

文献データベース

Yet Another Watermark for Large Language Models

Authors: Siyuan Bao, Ying Shi, Zhiguang Yang, Hanzhou Wu, Xinpeng Zhang | Published: 2025-09-16

プロンプトリーキング

大規模言語モデル

透かし技術

2025.09.16

文献データベース

NeuroStrike: Neuron-Level Attacks on Aligned LLMs

Authors: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Maximilian Thang, Stjepan Picek, Ahmad-Reza Sadeghi | Published: 2025-09-15

プロンプトインジェクション

大規模言語モデル

安全性メカニズムの分析

2025.09.15

文献データベース