文献データベース

SimMark: A Robust Sentence-Level Similarity-Based Watermarking Algorithm for Large Language Models

Authors: Amirhossein Dabiriaghdam, Lele Wang | Published: 2025-02-05 | Updated: 2025-09-11

ロバスト性分析

生成AI向け電子透かし

透かし設計

2025.02.05

文献データベース

Privacy Amplification by Structured Subsampling for Deep Differentially Private Time Series Forecasting

Authors: Jan Schuchardt, Mina Dalirrooyfard, Jed Guzelkabaagac, Anderson Schneider, Yuriy Nevmyvaka, Stephan Günnemann | Published: 2025-02-04 | Updated: 2025-05-29

プライバシー分析

差分プライバシー

情報理論的評価

2025.02.04

文献データベース

Online Gradient Boosting Decision Tree: In-Place Updates for Efficient Adding/Deleting Data

Authors: Huawei Lin, Jun Woo Chung, Yingjie Lao, Weijie Zhao | Published: 2025-02-03

オンライン学習

2025.02.03 2025.04.03

文献データベース

Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees

Authors: Yannis Montreuil, Axel Carlier, Lai Xing Ng, Wei Tsang Ooi | Published: 2025-02-03

Learning-to-Defer

敵対的サンプル

敵対的訓練

2025.02.03 2025.04.03

文献データベース

AgentBreeder: Mitigating the AI Safety Impact of Multi-Agent Scaffolds via Self-Improvement

Authors: J Rosser, Jakob Nicolaus Foerster | Published: 2025-02-02 | Updated: 2025-04-14

LLM性能評価

マルチオブジェクティブ最適化

安全性アライメント

2025.02.02

文献データベース

Model Provenance Testing for Large Language Models

Authors: Ivica Nikolic, Teodora Baluta, Prateek Saxena | Published: 2025-02-02 | Updated: 2025-10-30

プロンプトリーキング

モデル抽出攻撃

モデル設計

2025.02.02

文献データベース

Safety at Scale: A Comprehensive Survey of Large Model Safety

Authors: Xingjun Ma, Yifeng Gao, Yixu Wang, Ruofan Wang, Xin Wang, Ye Sun, Yifan Ding, Hengyuan Xu, Yunhao Chen, Yunhan Zhao, Hanxun Huang, Yige Li, Jiaming Zhang, Xiang Zheng, Yang Bai, Zuxuan Wu, Xipeng Qiu, Jingfeng Zhang, Yiming Li, Xudong Han, Haonan Li, Jun Sun, Cong Wang, Jindong Gu, Baoyuan Wu, Siheng Chen, Tianwei Zhang, Yang Liu, Mingming Gong, Tongliang Liu, Shirui Pan, Cihang Xie, Tianyu Pang, Yinpeng Dong, Ruoxi Jia, Yang Zhang, Shiqing Ma, Xiangyu Zhang, Neil Gong, Chaowei Xiao, Sarah Erfani, Tim Baldwin, Bo Li, Masashi Sugiyama, Dacheng Tao, James Bailey, Yu-Gang Jiang | Published: 2025-02-02 | Updated: 2025-03-19

インダイレクトプロンプトインジェクション

プロンプトインジェクション

攻撃手法

2025.02.02 2025.04.03

文献データベース

LLM Safety Alignment is Divergence Estimation in Disguise

Authors: Rajdeep Haldar, Ziyi Wang, Qifan Song, Guang Lin, Yue Xing | Published: 2025-02-02

プロンプトインジェクション

収束分析

大規模言語モデル

安全性アライメント

2025.02.02 2025.04.03

文献データベース

Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Authors: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr | Published: 2025-02-01 | Updated: 2025-06-30

RAG

プロンプトリーキング

メンバーシップ推論

2025.02.01

文献データベース

Byzantine-Resilient Zero-Order Optimization for Communication-Efficient Heterogeneous Federated Learning

Authors: Maximilian Egger, Mayank Bakshi, Rawad Bitar | Published: 2025-01-31

収束保証

収束分析

通信効率

2025.01.31 2025.04.03

文献データベース