文献データベース

Towards LLM Guardrails via Sparse Representation Steering

Authors: Zeqing He, Zhibo Wang, Huiyu Xu, Kui Ren | Published: 2025-03-21
スパース表現手法
モデルの解釈性
機械学習の役割

ATOM: A Framework of Detecting Query-Based Model Extraction Attacks for Graph Neural Networks

Authors: Zhan Cheng, Bolin Shen, Tianming Sha, Yuan Gao, Shibo Li, Yushun Dong | Published: 2025-03-20
グラフニューラルネットワーク
モデル性能評価
検出手法の分析

Empirical Analysis of Privacy-Fairness-Accuracy Trade-offs in Federated Learning: A Step Towards Responsible AI

Authors: Dawood Wasif, Dian Chen, Sindhuja Madabushi, Nithin Alluru, Terrence J. Moore, Jin-Hee Cho | Published: 2025-03-20
プライバシー分析
公平性のトレードオフ
差分プライバシー

BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models

Authors: Zenghui Yuan, Jiawen Shi, Pan Zhou, Neil Zhenqiang Gong, Lichao Sun | Published: 2025-03-20
バックドア攻撃
プロンプトインジェクション
大規模言語モデル

TVineSynth: A Truncated C-Vine Copula Generator of Synthetic Tabular Data to Balance Privacy and Utility

Authors: Elisabeth Griesbauer, Claudia Czado, Arnoldo Frigessi, Ingrid Hobæk Haff | Published: 2025-03-20
データ生成
プライバシー保護機械学習
メンバーシップ推論

Digital Asset Data Lakehouse. The concept based on a blockchain research center

Authors: Raul Cristian Bag | Published: 2025-03-20
ETLプロセス
クラウドコンピューティング
データ駆動型クラスタリング

DroidTTP: Mapping Android Applications with TTP for Cyber Threat Intelligence

Authors: Dincy R Arikkat, Vinod P., Rafidha Rehiman K. A., Serena Nicolazzo, Marco Arazzi, Antonino Nocera, Mauro Conti | Published: 2025-03-20
RAGへのポイズニング攻撃
性能評価手法
特徴抽出手法

Detecting LLM-Written Peer Reviews

Authors: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah | Published: 2025-03-20
プロンプトインジェクション
生成AI向け電子透かし
透かし設計

AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration

Authors: Andy Zhou, Kevin Wu, Francesco Pinto, Zhaorun Chen, Yi Zeng, Yu Yang, Shuang Yang, Sanmi Koyejo, James Zou, Bo Li | Published: 2025-03-20
エラー処理
テキスト生成手法
テストケース生成

Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings

Authors: Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, Dacheng Tao | Published: 2025-03-19
プロンプトインジェクション
大規模言語モデル
攻撃手法