$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat | Published: 2025-04-28 ユーザー識別システム大規模言語モデル安全性と有用性のトレードオフ 2025.04.28 文献データベース
Can Differentially Private Fine-tuning LLMs Protect Against Privacy Attacks? Authors: Hao Du, Shang Liu, Yang Cao | Published: 2025-04-28 | Updated: 2025-05-01 プライバシーリスク管理メンバーシップ開示リスク差分プライバシー 2025.04.28 文献データベース
BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts Authors: Qingyue Wang, Qi Pang, Xixun Lin, Shuai Wang, Daoyuan Wu | Published: 2025-04-24 | Updated: 2025-04-29 RAGへのポイズニング攻撃バックドア攻撃手法攻撃手法 2025.04.24 文献データベース
Evaluating the Vulnerability of ML-Based Ethereum Phishing Detectors to Single-Feature Adversarial Perturbations Authors: Ahod Alghuried, Ali Alkinoon, Abdulaziz Alghamdi, Soohyeon Choi, Manar Mohaisen, David Mohaisen | Published: 2025-04-24 フィッシング攻撃の検出率モデルの頑健性保証敵対的サンプルの検知 2025.04.24 文献データベース
Quantum Autoencoder for Multivariate Time Series Anomaly Detection Authors: Kilian Tscharke, Maximilian Wendlinger, Afrae Ahouzi, Pallavi Bhardwaj, Kaweh Amoi-Taleghani, Michael Schrödl-Baumann, Pascal Debus | Published: 2025-04-24 多変量時系列分析異常検出手法量子計算手法 2025.04.24 文献データベース
Automatically Generating Rules of Malicious Software Packages via Large Language Model Authors: XiangRui Zhang, HaoYu Chen, Yongzhong He, Wenjia Niu, Qiang Li | Published: 2025-04-24 OSSエコシステムの脅威プロンプトリーキングマルウェア検出手法 2025.04.24 文献データベース
Steering the CensorShip: Uncovering Representation Vectors for LLM “Thought” Control Authors: Hannah Cyberey, David Evans | Published: 2025-04-23 プロンプトインジェクション心理的操作透かし 2025.04.23 文献データベース
Snorkeling in dark waters: A longitudinal surface exploration of unique Tor Hidden Services (Extended Version) Authors: Alfonso Rodriguez Barredo-Valenzuela, Sergio Pastrana Portillo, Guillermo Suarez-Tangil | Published: 2025-04-23 ネットワーク脅威検出研究方法論透かし 2025.04.23 文献データベース
MCMC for Bayesian estimation of Differential Privacy from Membership Inference Attacks Authors: Ceren Yildirim, Kamer Kaya, Sinan Yildirim, Erkay Savas | Published: 2025-04-23 プライバシー保護データマイニングメンバーシップ推論透かし 2025.04.23 文献データベース
Case Study: Fine-tuning Small Language Models for Accurate and Private CWE Detection in Python Code Authors: Md. Azizul Hakim Bappy, Hossen A Mustafa, Prottoy Saha, Rajinus Salehat | Published: 2025-04-23 LLM性能評価トレーニング手法プロンプトリーキング 2025.04.23 文献データベース