文献データベース

Provably Secure Agent Guardrail

Authors: Benlong Wu, Weiming Zhang, Kejiang Chen, Han Fang, Nenghai Yu | Published: 2026-05-28
LLMセキュリティ
データ保護手法
効率的証明システム

Implicit Identity Technologies for LLMs: Fingerprinting and Watermarking across Datasets, Models, and Generated Content

Authors: Bing Liu, Shunping Wang, Yufan Zhu, Xinyi Yu, Jing Huang, Linkang Du, Hongbin Pei, Wei Luo | Published: 2026-05-28
インダイレクトプロンプトインジェクション
生成AI向け電子透かし
著者識別手法

Evolving Skill-Structured Attack Memory Enhances LLM Jailbreaking

Authors: Junke Zhang, Jianwei Wang, Sishuo Chen, Yizhang He, Qingshuai Feng, Zhengyi Yang | Published: 2026-05-28
LLMセキュリティ
プロンプトインジェクション
メモリ効率化手法

Relevance as a Vulnerability: How Web Retrieval Degrades Safety Alignment in LLM Agents

Authors: Aditya Nawal, Manit Baser, Mohan Gurusamy | Published: 2026-05-28
AIシステムの関係性
インダイレクトプロンプトインジェクション
データ抽出と分析

SAMD: A Tool for Identifying False Data Injection Scenarios in AI/ML-enabled Medical Devices

Authors: Mohammadreza Hallajiyan, Xueren Ge, Athish Pranav Dharmalingam, Gargi Mitra, Shahrear Iqbal, Homa Alemzadeh, Karthik Pattabiraman | Published: 2026-05-28
LLMセキュリティ
シナリオベースの悪用
データ中心のセキュリティ

Blind PRNG Hijacking: An Undetectable Integrity-Preserving Attack Against LLM Watermarking

Authors: Ziyang You, Huilong He, Xiaoke Yang, Xuxing Lu | Published: 2026-05-27
LLMセキュリティ
暗号学
透かし

Towards Cybersecurity SuperIntelligence (CSI): What’s the best harness for cybersecurity?

Authors: Víctor Mayoral-Vilches, Francesco Balassone, María Sanz-Gómez, Paul Zabalegui Landa, Daniel Sánchez Prieto, Marina Oteiza Álvarez, Davide Quarta, Martin Pinzger | Published: 2026-05-27
LLMセキュリティ
モデルアーキテクチャ
計算効率

SPARD: Defending Harmful Fine-Tuning Attack via Safety Projection with Relevance-Diversity Data Selection

Authors: Shuhao Chen, Weisen Jiang, Yeqi Gong, Shengda Luo, Chengxiang Zhuo, Zang Li, James T. Kwok, Yu Zhang | Published: 2026-05-27
LLMセキュリティ
プロンプトインジェクション
プロンプトリーキング

MRMMIA: Membership Inference Attacks on Memory in Chat Agents

Authors: Kai Chen, Yan Pang, Tianhao Wang | Published: 2026-05-27
データ抽出と分析
メモリ効率化手法
機械学習手法

Disentangling Adversarial Prompts: A Semantic-Graph Defense for Robust LLM Security

Authors: Xiang Fang, Wanlong Fang | Published: 2026-05-27
プロンプトインジェクション
プロンプトリーキング
著者貢献