Watermark Evaluation

Early Signs of Steganographic Capabilities in Frontier LLMs

Authors: Artur Zolkowski, Kei Nishimura-Gasparian, Robert McCarthy, Roland S. Zimmermann, David Lindner | Published: 2025-07-03

料理手順

Watermark Evaluation

隠れタスク評価

2025.07.03 2025.07.05

Literature Database

Privacy Leaks by Adversaries: Adversarial Iterations for Membership Inference Attack

Authors: Jing Xue, Zhishen Sun, Haishan Ye, Luo Luo, Xiangyu Chang, Ivor Tsang, Guang Dai | Published: 2025-06-03

Privacy Analysis

Adversarial Example

Watermark Evaluation

2025.06.03 2025.06.05

Literature Database

CyberGym: Evaluating AI Agents’ Cybersecurity Capabilities with Real-World Vulnerabilities at Scale

Authors: Zhun Wang, Tianneng Shi, Jingxuan He, Matthew Cai, Jialin Zhang, Dawn Song | Published: 2025-06-03

Prompt Injection

Dynamic Analysis Method

Watermark Evaluation

2025.06.03 2025.06.05

Literature Database

UniNet: A Unified Multi-granular Traffic Modeling Framework for Network Security

Authors: Binghui Wu, Dinil Mon Divakaran, Mohan Gurusamy | Published: 2025-03-06 | Updated: 2025-07-03

IoT Traffic Analysis

Modification of Network Traffic

Watermark Evaluation

2025.03.06 2025.07.05

Literature Database

Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents

Authors: Ivoline Ngong, Swanand Kadhe, Hao Wang, Keerthiram Murugesan, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy | Published: 2025-02-22 | Updated: 2025-07-28

Privacy Risk Management

Prompt leaking

Watermark Evaluation

2025.02.22 2025.07.30

Literature Database

RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models

Authors: Peizhuo Lv, Mengjie Sun, Hao Wang, Xiaofeng Wang, Shengzhi Zhang, Yuxuan Chen, Kai Chen, Limin Sun | Published: 2025-01-09

RAG

Watermarking

Watermark Evaluation

2025.01.09 2025.05.27

Literature Database

RTLMarker: Protecting LLM-Generated RTL Copyright via a Hardware Watermarking Framework

Authors: Kun Wang, Kaiyan Chang, Mengdi Wang, Xinqi Zou, Haobo Xu, Yinhe Han, Ying Wang | Published: 2025-01-05

Prompt Injection

Watermark Robustness

Watermark Evaluation

2025.01.05 2025.05.27

Literature Database

A Statistical Hypothesis Testing Framework for Data Misappropriation Detection in Large Language Models

Authors: Yinpeng Cai, Lexin Li, Linjun Zhang | Published: 2025-01-05

Framework

Hypothesis Testing

Watermark Evaluation

2025.01.05 2025.05.27

Literature Database

Combining Machine Learning Defenses without Conflicts

Authors: Vasisht Duddu, Rui Zhang, N. Asokan | Published: 2024-11-14 | Updated: 2025-08-14

Certified Robustness

Watermark Evaluation

防御手法の統合

2024.11.14 2025.08.16

Literature Database

Private Counterfactual Retrieval

Authors: Mohamed Nomeir, Pasan Dissanayake, Shreya Meel, Sanghamitra Dutta, Sennur Ulukus | Published: 2024-10-17 | Updated: 2025-07-24

Privacy Protection Method

Distance Evaluation Method

Watermark Evaluation

2024.10.17 2025.07.26

Literature Database