VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation Authors: Ethan TS. Liu, Austin Wang, Spencer Mateega, Carlos Georgescu, Danny Tang | Published: 2025-05-26 ウェブサイト脆弱性ハルシネーション動的脆弱性管理 2025.05.26 文献データベース
Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models Authors: Junjie Xiong, Changjia Zhu, Shuhang Lin, Chong Zhang, Yongfeng Zhang, Yao Liu, Lingyao Li | Published: 2025-05-22 LLMセキュリティLLMの安全機構の解除プロンプトインジェクション 2025.05.22 文献データベース
Backdoor Cleaning without External Guidance in MLLM Fine-tuning Authors: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye | Published: 2025-05-22 LLMセキュリティバックドア攻撃 2025.05.22 文献データベース
CAIN: Hijacking LLM-Humans Conversations via a Two-Stage Malicious System Prompt Generation and Refining Framework Authors: Viet Pham, Thai Le | Published: 2025-05-22 LLMセキュリティプロンプトインジェクション対抗的学習 2025.05.22 文献データベース
Unlearning Isn’t Deletion: Investigating Reversibility of Machine Unlearning in LLMs Authors: Xiaoyu Xu, Xiang Yue, Yang Liu, Qingqing Ye, Haibo Hu, Minxin Du | Published: 2025-05-22 AIによる出力のバイアスの検出プライバシー管理マシン・アンラーニング 2025.05.22 文献データベース
CoTSRF: Utilize Chain of Thought as Stealthy and Robust Fingerprint of Large Language Models Authors: Zhenzhen Ren, GuoBiao Li, Sheng Li, Zhenxing Qian, Xinpeng Zhang | Published: 2025-05-22 LLMセキュリティフィンガープリンティング手法モデル識別 2025.05.22 文献データベース
When Safety Detectors Aren’t Enough: A Stealthy and Effective Jailbreak Attack on LLMs via Steganographic Techniques Authors: Jianing Geng, Biao Yi, Zekun Fei, Tongxi Wu, Lihai Nie, Zheli Liu | Published: 2025-05-22 LLMの安全機構の解除プロンプトインジェクション透かし除去技術 2025.05.22 文献データベース
Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization Authors: Chengcan Wu, Zhixin Zhang, Zeming Wei, Yihao Zhang, Meng Sun | Published: 2025-05-22 LLMセキュリティアライメント敵対的学習 2025.05.22 文献データベース
BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models Authors: Xiaobei Yan, Yiming Li, Zhaoxin Fan, Han Qiu, Tianwei Zhang | Published: 2025-05-22 LLMセキュリティテキスト生成手法プロンプトインジェクション 2025.05.22 文献データベース
Finetuning-Activated Backdoors in LLMs Authors: Thibaud Gloaguen, Mark Vero, Robin Staab, Martin Vechev | Published: 2025-05-22 LLMセキュリティバックドア攻撃プロンプトインジェクション 2025.05.22 文献データベース