文献データベース

文献データベースでは、AIセキュリティに関する文献情報を分類・集約しています。詳しくは文献データベースについてをご覧ください。統計情報のページでは、収集された文献に関する統計情報を公開しています。
The Literature Database categorizes and aggregates literature related to AI security. For more details, please see About Literature Database. We provide statistical information regarding the Literature Database on the Statistics page.

Sigil: Server-Enforced Watermarking in U-Shaped Split Federated Learning via Gradient Injection

Authors: Zhengchunmin Dai, Jiaxiong Tang, Peng Sun, Honglong Chen, Liantao Wu | Published: 2025-11-18
堅牢性検証手法
透かし評価
適応型誤用検出

Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security

Authors: Hajun Kim, Hyunsik Na, Daeseon Choi | Published: 2025-11-18
プロンプトエンジニアリング
大規模言語モデル
悪意のあるプロンプト

Observational Auditing of Label Privacy

Authors: Iden Kalemaj, Luca Melis, Maxime Boucher, Ilya Mironov, Saeed Mahloujifar | Published: 2025-11-18
バックドア攻撃用の毒データの検知
プライバシー手法
差分プライバシー

Dynamic Black-box Backdoor Attacks on IoT Sensory Data

Authors: Ajesh Koyatan Chathoth, Stephen Lee | Published: 2025-11-18
トリガーの検知
バックドア攻撃
生成モデル

GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards

Authors: Yule Liu, Heyi Zhang, Jinyi Zheng, Zhen Sun, Zifan Peng, Tianshuo Cong, Yilong Yang, Xinlei He, Zhuo Ma | Published: 2025-11-18
プライバシー手法
メンバーシップ推論
差分プライバシー

TZ-LLM: Protecting On-Device Large Language Models with Arm TrustZone

Authors: Xunjie Wang, Jiacheng Shi, Zihan Zhao, Yang Yu, Zhichao Hua, Jinyu Gu | Published: 2025-11-17
プロンプトリーキング
モデルDoS
性能評価指標

Robust Client-Server Watermarking for Split Federated Learning

Authors: Jiaxiong Tang, Zhengchunmin Dai, Liantao Wu, Peng Sun, Honglong Chen, Zhenfu Cao | Published: 2025-11-17
トリガーの検知
プライバシー手法
透かし評価

ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

Authors: Siyang Cheng, Gaotian Liu, Rui Mei, Yilin Wang, Kejia Zhang, Kaishuo Wei, Yuqi Yu, Weiping Wen, Xiaojie Wu, Junhua Liu | Published: 2025-11-17
プロンプトインジェクション
大規模言語モデル
進化的アルゴリズム

Interpretable Ransomware Detection Using Hybrid Large Language Models: A Comparative Analysis of BERT, RoBERTa, and DeBERTa Through LIME and SHAP

Authors: Elodie Mutombo Ngoie, Mike Nkongolo Wa Nkongolo, Peace Azugo, Mahmut Tokmak | Published: 2025-11-17
メンバーシップ推論
深層学習に基づくIDS
特徴選択手法

Tight and Practical Privacy Auditing for Differentially Private In-Context Learning

Authors: Yuyang Xia, Ruixuan Liu, Li Xiong | Published: 2025-11-17
プライバシー手法
匿名化技術
差分プライバシー