プロンプトの検証

EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint

Authors: Zhenhua Xu, Meng Han, Wenpeng Xing | Published: 2025-09-03

LLMの安全機構の解除

データ保護手法

プロンプトの検証

2025.09.03

文献データベース

PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance

Authors: Mengxiao Wang, Yuxuan Zhang, Guofei Gu | Published: 2025-08-28

インダイレクトプロンプトインジェクション

プロンプトインジェクション

プロンプトの検証

2025.08.28

文献データベース

Attacking interpretable NLP systems

Authors: Eldor Abdukhamidov, Tamer Abuhmed, Joanna C. S. Santos, Mohammed Abuhamad | Published: 2025-07-22

プロンプトインジェクション

プロンプトの検証

敵対的攻撃手法

2025.07.22

文献データベース

AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models

Authors: Yu Wang, Yijian Liu, Liheng Ji, Han Luo, Wenjie Li, Xiaofei Zhou, Chiyun Feng, Puji Wang, Yuhan Cao, Geyuan Zhang, Xiaojian Li, Rongwu Xu, Yilei Chen, Tianxing He | Published: 2025-07-13 | Updated: 2025-09-30

アルゴリズム

ハルシネーション

プロンプトの検証

2025.07.13

文献データベース

GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing

Authors: Peiyan Zhang, Haibo Jin, Liying Kang, Haohan Wang | Published: 2025-07-10

プロンプトの検証

大規模言語モデル

性能評価指標

2025.07.10

文献データベース

PenTest2.0: Towards Autonomous Privilege Escalation Using GenAI

Authors: Haitham S. Al-Sinani, Chris J. Mitchell | Published: 2025-07-09

インダイレクトプロンプトインジェクション

プロンプトの検証

プロンプトリーキング

2025.07.09

文献データベース

A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures

Authors: Dezhang Kong, Shi Lin, Zhenhua Xu, Zhebo Wang, Minghao Li, Yufeng Li, Yilun Zhang, Zeyang Sha, Yuyuan Li, Changting Lin, Xun Wang, Xuan Liu, Muhammad Khurram Khan, Ningyu Zhang, Chaochao Chen, Meng Han | Published: 2025-06-24

AIエージェント通信

RAGへのポイズニング攻撃

プロンプトの検証

2025.06.24

文献データベース

Adversarial Suffix Filtering: a Defense Pipeline for LLMs

Authors: David Khachaturov, Robert Mullins | Published: 2025-05-14

プロンプトの検証

倫理基準遵守

攻撃検出手法

2025.05.14

文献データベース

Defending against Indirect Prompt Injection by Instruction Detection

Authors: Tongyu Wen, Chenglong Wang, Xiyuan Yang, Haoyu Tang, Yueqi Xie, Lingjuan Lyu, Zhicheng Dou, Fangzhao Wu | Published: 2025-05-08 | Updated: 2025-09-17

プロンプトの検証

評価手法

透かし技術

2025.05.08

文献データベース

Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction

Authors: Yulin Chen, Haoran Li, Yuan Sui, Yue Liu, Yufei He, Yangqiu Song, Bryan Hooi | Published: 2025-04-29

インダイレクトプロンプトインジェクション

プロンプトの検証

攻撃手法

2025.04.29

文献データベース