Towards LLM Guardrails via Sparse Representation Steering Authors: Zeqing He, Zhibo Wang, Huiyu Xu, Kui Ren | Published: 2025-03-21 スパース表現手法モデルの解釈性機械学習の役割 2025.03.21 2025.04.03 文献データベース
ATOM: A Framework of Detecting Query-Based Model Extraction Attacks for Graph Neural Networks Authors: Zhan Cheng, Bolin Shen, Tianming Sha, Yuan Gao, Shibo Li, Yushun Dong | Published: 2025-03-20 グラフニューラルネットワークモデル性能評価検出手法の分析 2025.03.20 2025.04.03 文献データベース
Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI Authors: Dawood Wasif, Dian Chen, Sindhuja Madabushi, Nithin Alluru, Terrence J. Moore, Jin-Hee Cho | Published: 2025-03-20 プライバシー分析公平性のトレードオフ差分プライバシー 2025.03.20 2025.04.03 文献データベース
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models Authors: Zenghui Yuan, Jiawen Shi, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun | Published: 2025-03-20 バックドア攻撃プロンプトインジェクション大規模言語モデル 2025.03.20 2025.04.03 文献データベース
TVineSynth: A Truncated C-Vine Copula Generator of Synthetic Tabular Data to Balance Privacy and Utility Authors: Elisabeth Griesbauer, Claudia Czado, Arnoldo Frigessi, Ingrid Hobæk Haff | Published: 2025-03-20 データ生成プライバシー保護機械学習メンバーシップ推論 2025.03.20 2025.04.03 文献データベース
Digital Asset Data Lakehouse. The concept based on a blockchain research center Authors: Raul Cristian Bag | Published: 2025-03-20 ETLプロセスクラウドコンピューティングデータ駆動型クラスタリング 2025.03.20 2025.04.03 文献データベース
DroidTTP: Mapping Android Applications with TTP for Cyber Threat Intelligence Authors: Dincy R Arikkat, Vinod P., Rafidha Rehiman K. A., Serena Nicolazzo, Marco Arazzi, Antonino Nocera, Mauro Conti | Published: 2025-03-20 RAGへのポイズニング攻撃性能評価手法特徴抽出手法 2025.03.20 2025.04.03 文献データベース
Detecting LLM-Written Peer Reviews Authors: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah | Published: 2025-03-20 プロンプトインジェクション生成AI向け電子透かし透かし設計 2025.03.20 2025.04.03 文献データベース
AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration Authors: Andy Zhou, Kevin Wu, Francesco Pinto, Zhaorun Chen, Yi Zeng, Yu Yang, Shuang Yang, Sanmi Koyejo, James Zou, Bo Li | Published: 2025-03-20 エラー処理テキスト生成手法テストケース生成 2025.03.20 2025.04.03 文献データベース
Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings Authors: Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, Dacheng Tao | Published: 2025-03-19 プロンプトインジェクション大規模言語モデル攻撃手法 2025.03.19 2025.04.03 文献データベース