Secure and Efficient Access Control for Computer-Use Agents via Context Space Authors: Haochen Gong, Chenxiao Li, Rui Chang, Wenbo Shen | Published: 2025-09-26 | Updated: 2025-10-21 インダイレクトプロンプトインジェクションエージェント設計セキュリティメトリック 2025.09.26 文献データベース
Defending MoE LLMs against Harmful Fine-Tuning via Safety Routing Alignment Authors: Jaehan Kim, Minkyoo Song, Seungwon Shin, Sooel Son | Published: 2025-09-26 | Updated: 2025-10-09 AIによる出力のバイアスの検出ロバスト性防御メカニズム 2025.09.26 文献データベース
Backdoor Attribution: Elucidating and Controlling Backdoor in Language Models Authors: Miao Yu, Zhenhong Zhou, Moayad Aloqaily, Kun Wang, Biwei Huang, Stephen Wang, Yueming Jin, Qingsong Wen | Published: 2025-09-26 | Updated: 2025-09-30 LLMの安全機構の解除自己注意メカニズム解釈可能性 2025.09.26 文献データベース
It’s not Easy: Applying Supervised Machine Learning to Detect Malicious Extensions in the Chrome Web Store Authors: Ben Rosenzweig, Valentino Dalla Valle, Giovanni Apruzzese, Aurore Fass | Published: 2025-09-25 | Updated: 2025-10-02 プログラム解析ユーザー活動解析悪意のあるパッケージ検出 2025.09.25 文献データベース
No Prior, No Leakage: Revisiting Reconstruction Attacks in Trained Neural Networks Authors: Yehonatan Refael, Guy Smorodinsky, Ofir Lindenbaum, Itay Safran | Published: 2025-09-25 トレーニングデータ生成プライバシー保護メカニズムプライバシー保護手法 2025.09.25 文献データベース
EvoMail: Self-Evolving Cognitive Agents for Adaptive Spam and Phishing Email Defense Authors: Wei Huang, De-Tian Chu, Lin-Yuan Bai, Wei Kang, Hai-Tao Zhang, Bo Li, Zhi-Mo Han, Jing Ge, Hai-Feng Lin | Published: 2025-09-25 フィッシング攻撃大規模言語モデル自己進化型フレームワーク 2025.09.25 文献データベース
PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints Authors: Jiahao Huo, Shuliang Liu, Bin Wang, Junyan Zhang, Yibo Yan, Aiwei Liu, Xuming Hu, Mingxun Zhou | Published: 2025-09-25 アルゴリズム生成AI向け電子透かし透かし技術の堅牢性 2025.09.25 文献データベース
Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools Authors: Ping He, Changjiang Li, Binbin Zhao, Tianyu Du, Shouling Ji | Published: 2025-09-25 インダイレクトプロンプトインジェクションツール使用分析自動生成フレームワーク 2025.09.25 文献データベース
Dual-Path Phishing Detection: Integrating Transformer-Based NLP with Structural URL Analysis Authors: Ibrahim Altan, Abdulla Bachir, Yousuf Parbhulkar, Abdul Muksith Rizvi, Moshiur Farazi | Published: 2025-09-25 フィッシング攻撃の傾向検出手法の分析自然言語処理 2025.09.25 文献データベース
RLCracker: Exposing the Vulnerability of LLM Watermarks with Adaptive RL Attacks Authors: Hanbo Huang, Yiran Zhang, Hao Zheng, Xuan Gong, Yihan Li, Lin Liu, Shiyu Liang | Published: 2025-09-25 LLMの安全機構の解除プロンプトインジェクション透かし設計 2025.09.25 文献データベース