文献データベース

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training

Authors: Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang | Published: 2024-01-01
LLM性能評価
データセット生成
プロンプトインジェクション

Improving the Privacy and Practicality of Objective Perturbation for Differentially Private Linear Learners

Authors: Rachel Redberg, Antti Koskela, Yu-Xiang Wang | Published: 2023-12-31
ハイパーパラメータ調整
プライバシー保護手法
透かし評価

Opening A Pandora’s Box: Things You Should Know in the Era of Custom GPTs

Authors: Guanhong Tao, Siyuan Cheng, Zhuo Zhang, Junmin Zhu, Guangyu Shen, Xiangyu Zhang | Published: 2023-12-31
サイバーセキュリティ
フィッシング攻撃
プロンプトインジェクション

Autonomous Threat Hunting: A Future Paradigm for AI-Driven Threat Intelligence

Authors: Siva Raja Sindiramutty | Published: 2023-12-30
AIと自動化の役割
XAI(説明可能なAI)
サイバーセキュリティ

Jatmo: Prompt Injection Defense by Task-Specific Finetuning

Authors: Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei, Elizabeth Sun, Basel Alomair, David Wagner | Published: 2023-12-29 | Updated: 2024-01-08
LLMセキュリティ
サイバー攻撃
プロンプトインジェクション

AIJack: Let’s Hijack AI! Security and Privacy Risk Simulator for Machine Learning

Authors: Hideaki Takahashi | Published: 2023-12-29 | Updated: 2024-04-08
ウォーターマーキング
ポイズニング
連合学習

Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning

Authors: Xiao-Yang Liu, Rongyi Zhu, Daochen Zha, Jiechao Gao, Shan Zhong, Matt White, Meikang Qiu | Published: 2023-12-29 | Updated: 2024-06-02
プライバシー保護手法
モデル性能評価
連合学習

Can you See me? On the Visibility of NOPs against Android Malware Detectors

Authors: Diego Soi, Davide Maiorca, Giorgio Giacinto, Harel Berger | Published: 2023-12-28
コード変更分析
攻撃手法
透かし評価

Optimizing watermarks for large language models

Authors: Bram Wouters | Published: 2023-12-28
最適化手法
透かしの耐久性
透かし評価

Attack Tree Analysis for Adversarial Evasion Attacks

Authors: Yuki Yamaguchi, Toshiaki Aoki | Published: 2023-12-28
ポイズニング
敵対的攻撃
透かし評価