プロンプトの検証

PromptLocate: Localizing Prompt Injection Attacks

Authors: Yuqi Jia, Yupei Liu, Zedian Shao, Jinyuan Jia, Neil Gong | Published: 2025-10-14
プロンプトの検証
大規模言語モデル
評価指標

P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs

Authors: Shuai Zhao, Xinyi Wu, Shiqian Zhao, Xiaobao Wu, Zhongliang Guo, Yanhao Jia, Anh Tuan Luu | Published: 2025-10-06
プロンプトインジェクション
プロンプトの検証
防御手法の統合

Detection of security smells in IaC scripts through semantics-aware code and language processing

Authors: Aicha War, Adnan A. Rawass, Abdoul K. Kabore, Jordan Samhi, Jacques Klein, Tegawende F. Bissyande | Published: 2025-09-23
コード表現技術
セキュリティ分析
プロンプトの検証

EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models

Authors: Mohammad Reza Mirbagheri, Mohammad Mahdi Mirkamali, Zahra Motoshaker Arani, Ali Javeri, Amir Mahdi Sadeghzadeh, Rasool Jalili | Published: 2025-09-08
フェアネス学習
プロンプトの検証
安全性

PromptCOS: Towards System Prompt Copyright Auditing for LLMs via Content-level Output Similarity

Authors: Yuchen Yang, Yiming Li, Hongwei Yao, Enhao Huang, Shuo Shao, Bingrun Yang, Zhibo Wang, Dacheng Tao, Zhan Qin | Published: 2025-09-03
プロンプトの検証
プロンプトリーキング
モデル抽出攻撃

EverTracer: Hunting Stolen Large Language Models via Stealthy and Robust Probabilistic Fingerprint

Authors: Zhenhua Xu, Meng Han, Wenpeng Xing | Published: 2025-09-03
LLMの安全機構の解除
データ保護手法
プロンプトの検証

PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance

Authors: Mengxiao Wang, Yuxuan Zhang, Guofei Gu | Published: 2025-08-28
インダイレクトプロンプトインジェクション
プロンプトインジェクション
プロンプトの検証

Attacking interpretable NLP systems

Authors: Eldor Abdukhamidov, Tamer Abuhmed, Joanna C. S. Santos, Mohammed Abuhamad | Published: 2025-07-22
プロンプトインジェクション
プロンプトの検証
敵対的攻撃手法

AICrypto: A Comprehensive Benchmark for Evaluating Cryptography Capabilities of Large Language Models

Authors: Yu Wang, Yijian Liu, Liheng Ji, Han Luo, Wenjie Li, Xiaofei Zhou, Chiyun Feng, Puji Wang, Yuhan Cao, Geyuan Zhang, Xiaojian Li, Rongwu Xu, Yilei Chen, Tianxing He | Published: 2025-07-13 | Updated: 2025-09-30
アルゴリズム
ハルシネーション
プロンプトの検証

GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing

Authors: Peiyan Zhang, Haibo Jin, Liying Kang, Haohan Wang | Published: 2025-07-10
プロンプトの検証
大規模言語モデル
性能評価指標