IF-GUIDE: Influence Function-Guided Detoxification of LLMs Authors: Zachary Coalson, Juhan Bae, Nicholas Carlini, Sanghyun Hong | Published: 2025-06-02 | Updated: 2025-06-09 テキストデトキシフィケーション倫理声明影響関数 2025.06.02 文献データベース
SALAD: Systematic Assessment of Machine Unlearning on LLM-Aided Hardware Design Authors: Zeng Wang, Minghao Shao, Rupesh Karn, Likhitha Mankali, Jitendra Bhandari, Ramesh Karri, Ozgur Sinanoglu, Muhammad Shafique, Johann Knechtel | Published: 2025-06-02 | Updated: 2025-08-05 データ駆動型脆弱性評価プロンプトリーキング透かし 2025.06.02 文献データベース
On the Stability of Graph Convolutional Neural Networks: A Probabilistic Perspective Authors: Ning Zhang, Henry Kenlay, Li Zhang, Mihai Cucuringu, Xiaowen Dong | Published: 2025-06-01 | Updated: 2025-06-03 動的グラフ処理敵対的学習最適化問題 2025.06.01 文献データベース
A Large Language Model-Supported Threat Modeling Framework for Transportation Cyber-Physical Systems Authors: M Sabbir Salek, Mashrur Chowdhury, Muhaimin Bin Munir, Yuchen Cai, Mohammad Imtiaz Hasan, Jean-Michel Tine, Latifur Khan, Mizanur Rahman | Published: 2025-06-01 | Updated: 2025-07-28 AIによる出力のバイアスの検出RAGへのポイズニング攻撃脆弱性評価手法 2025.06.01 文献データベース
Beyond the Protocol: Unveiling Attack Vectors in the Model Context Protocol (MCP) Ecosystem Authors: Hao Song, Yiming Shen, Wenxuan Luo, Leixin Guo, Ting Chen, Jiashui Wang, Beibei Li, Xiaosong Zhang, Jiachi Chen | Published: 2025-05-31 | Updated: 2025-08-20 インダイレクトプロンプトインジェクションプロンプトインジェクション攻撃タイプ 2025.05.31 文献データベース
A Systematic Review of Metaheuristics-Based and Machine Learning-Driven Intrusion Detection Systems in IoT Authors: Mohammad Shamim Ahsan, Salekul Islam, Swakkhar Shatabda | Published: 2025-05-31 | Updated: 2025-06-03 プロンプトインジェクション侵入検知システム最適化アルゴリズムの選択と評価 2025.05.31 文献データベース
A Red Teaming Roadmap Towards System-Level Safety Authors: Zifan Wang, Christina Q. Knight, Jeremy Kritz, Willow E. Primack, Julian Michael | Published: 2025-05-30 | Updated: 2025-06-09 モデルDoS大規模言語モデル製品安全性 2025.05.30 文献データベース
Rethinking Exact Unlearning under Exposure: Extracting Forgotten Data under Exact Unlearning in Large Language Model Authors: Xiaoyu Wu, Yifei Pang, Terrance Liu, Zhiwei Steven Wu | Published: 2025-05-30 | Updated: 2025-10-06 プライバシー保護機械学習プライバシー損失分析倫理基準遵守 2025.05.30 文献データベース
MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment Authors: John Halloran | Published: 2025-05-29 RAGへのポイズニング攻撃アライメント料理材料 2025.05.29 文献データベース
Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models Authors: Zenghui Yuan, Yangming Xu, Jiawen Shi, Pan Zhou, Lichao Sun | Published: 2025-05-29 LLMセキュリティポイズニング攻撃モデル保護手法 2025.05.29 文献データベース