Watermarking

Robust Safety Monitoring of Language Models via Activation Watermarking

Authors: Toluwani Aremu, Daniil Ognev, Samuele Poppi, Nils Lukas | Published: 2026-03-24

Watermarking

Safety of Data Generation

Prompt Injection

2026.03.24 2026.03.26

Literature Database

Functional Subspace Watermarking for Large Language Models

Authors: Zikang Ding, Junhao Li, Suling Wu, Junchi Yao, Hongbo Liu, Lijie Hu | Published: 2026-03-19

Watermarking

Prompt leaking

Membership Inference

2026.03.19 2026.03.25

Literature Database

A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

Authors: Usman Anwar, Julianna Piskorz, David D. Baek, David Africa, Jim Weatherall, Max Tegmark, Christian Schroeder de Witt, Mihaela van der Schaar, David Krueger | Published: 2026-02-26

Watermarking

Data Management System

Model evaluation methods

2026.02.26 2026.02.28

Literature Database

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Authors: Zheng Gao, Xiaoyu Li, Zhicheng Bao, Xiaoyan Feng, Jiaojiao Jiang | Published: 2026-02-25

Watermarking

Text Generation Method

Machine Learning Technology

2026.02.25 2026.02.27

Literature Database

On Protecting Agentic Systems’ Intellectual Property via Watermarking

Authors: Liwen Wang, Zongjie Li, Yuchong Xie, Shuai Wang, Dongdong She, Wei Wang, Juergen Rahmel | Published: 2026-02-09

Watermarking

エージェントシステムの透かし技術

Digital Watermarking for Generative AI

2026.02.09 2026.02.11

Literature Database

WorldCup Sampling for Multi-bit LLM Watermarking

Authors: Yidan Wang, Yubing Ren, Yanan Cao, Li Guo | Published: 2026-02-02

LLM Performance Evaluation

Algorithm Design

Watermarking

2026.02.02 2026.02.04

Literature Database

Detecting Benchmark Contamination Through Watermarking

Authors: Tom Sander, Pierre Fernandez, Saeed Mahloujifar, Alain Durmus, Chuan Guo | Published: 2025-02-24 | Updated: 2025-07-21

Watermarking

Data Contamination Detection

Performance Evaluation

2025.02.24 2025.07.23

Literature Database

GaussMark: A Practical Approach for Structural Watermarking of Language Models

Authors: Adam Block, Ayush Sekhari, Alexander Rakhlin | Published: 2025-01-17

Watermarking

Hypothesis Testing

Experimental Validation

2025.01.17 2025.05.27

Literature Database

Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks

Authors: Yixiao Xu, Binxing Fang, Rui Wang, Yinghai Zhou, Shouling Ji, Yuan Liu, Mohan Li, Zhihong Tian | Published: 2025-01-16 | Updated: 2025-01-17

Watermarking

Model Extraction Attack

Attack Evaluation

2025.01.16 2025.05.27

Literature Database

RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models

Authors: Peizhuo Lv, Mengjie Sun, Hao Wang, Xiaofeng Wang, Shengzhi Zhang, Yuxuan Chen, Kai Chen, Limin Sun | Published: 2025-01-09

RAG

Watermarking

Watermark Evaluation

2025.01.09 2025.05.27

Literature Database