Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models Authors: Yongcan Yu, Yanbo Wang, Ran He, Jian Liang | Published: 2025-05-28 LLMセキュリティプロンプトインジェクション大規模言語モデル 2025.05.28 文献データベース
Jailbreak Distillation: Renewable Safety Benchmarking Authors: Jingyu Zhang, Ahmed Elgohary, Xiawei Wang, A S M Iftekhar, Ahmed Magooda, Benjamin Van Durme, Daniel Khashabi, Kyle Jackson | Published: 2025-05-28 プロンプトインジェクションモデル評価攻撃の評価 2025.05.28 文献データベース
VulBinLLM: LLM-powered Vulnerability Detection for Stripped Binaries Authors: Nasir Hussain, Haohan Chen, Chanh Tran, Philip Huang, Zhuohao Li, Pravir Chugh, William Chen, Ashish Kundu, Yuan Tian | Published: 2025-05-28 LLMセキュリティ脆弱性分析逆アセンブル 2025.05.28 文献データベース
Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space Authors: Yao Huang, Yitong Sun, Shouwei Ruan, Yichi Zhang, Yinpeng Dong, Xingxing Wei | Published: 2025-05-27 LLMの安全機構の解除プロンプトインジェクション攻撃の評価 2025.05.27 文献データベース
JavaSith: A Client-Side Framework for Analyzing Potentially Malicious Extensions in Browsers, VS Code, and NPM Packages Authors: Avihay Cohen | Published: 2025-05-27 APIセキュリティクライアント側防御プロンプトインジェクション 2025.05.27 文献データベース
Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling Authors: Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong | Published: 2025-05-27 モデル評価実験的検証攻撃の評価 2025.05.27 文献データベース
SHE-LoRA: Selective Homomorphic Encryption for Federated Tuning with Heterogeneous LoRA Authors: Jianmin Liu, Li Yan, Borui Li, Lei Yu, Chao Shen | Published: 2025-05-27 クライアント側防御プライバシー分類暗号化手法 2025.05.27 文献データベース
IRCopilot: Automated Incident Response with Large Language Models Authors: Xihuan Lin, Jie Zhang, Gelei Deng, Tianzhe Liu, Xiaolong Liu, Changcai Yang, Tianwei Zhang, Qing Guo, Riqing Chen | Published: 2025-05-27 LLMセキュリティインダイレクトプロンプトインジェクションモデルDoS 2025.05.27 文献データベース
Respond to Change with Constancy: Instruction-tuning with LLM for Non-I.I.D. Network Traffic Classification Authors: Xinjie Lin, Gang Xiong, Gaopeng Gou, Wenqi Dong, Jing Yu, Zhen Li, Wei Xia | Published: 2025-05-27 トラフィック分類モデル性能評価構造学習 2025.05.27 文献データベース
Engineering Trustworthy Machine-Learning Operations with Zero-Knowledge Proofs Authors: Filippo Scaramuzza, Giovanni Quattrocchi, Damian A. Tamburri | Published: 2025-05-26 プライバシー問題モデル評価手法透かし技術 2025.05.26 文献データベース