攻撃の評価

A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models

Authors: Daniel Wankit Yip, Aysan Esmradi, Chun Fai Chan | Published: 2024-01-02

LLMセキュリティ

プロンプトインジェクション

攻撃の評価

2024.01.02 2025.04.03

文献データベース

Label-Only Model Inversion Attacks via Knowledge Transfer

Authors: Ngoc-Bao Nguyen, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai-Man Cheung | Published: 2023-10-30

プライバシー手法

攻撃の評価

深層学習手法

2023.10.30 2025.04.03

文献データベース

SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models

Authors: Boyang Zhang, Zheng Li, Ziqing Yang, Xinlei He, Michael Backes, Mario Fritz, Yang Zhang | Published: 2023-10-19

メンバーシップ推論

モデル抽出攻撃

攻撃の評価

2023.10.19 2025.04.03

文献データベース

Attack Prompt Generation for Red Teaming and Defending Large Language Models

Authors: Boyi Deng, Wenjie Wang, Fuli Feng, Yang Deng, Qifan Wang, Xiangnan He | Published: 2023-10-19

プロンプトインジェクション

攻撃の評価

敵対的サンプル

2023.10.19 2025.04.03

文献データベース

Last One Standing: A Comparative Analysis of Security and Privacy of Soft Prompt Tuning, LoRA, and In-Context Learning

Authors: Rui Wen, Tianhao Wang, Michael Backes, Yang Zhang, Ahmed Salem | Published: 2023-10-17

プライバシー手法

モデル抽出攻撃

攻撃の評価

2023.10.17 2025.04.03

文献データベース

BufferSearch: Generating Black-Box Adversarial Texts With Lower Queries

Authors: Wenjie Lv, Zhen Wang, Yitao Zheng, Zhehua Zhong, Qi Xuan, Tianyi Chen | Published: 2023-10-14

攻撃の評価

敵対的サンプル

最適化手法

2023.10.14 2025.04.03

文献データベース

On the Feasibility of Cross-Language Detection of Malicious Packages in npm and PyPI

Authors: Piergiorgio Ladisa, Serena Elisa Ponta, Nicola Ronzoni, Matias Martinez, Olivier Barais | Published: 2023-10-14

悪意のあるパッケージ検出

攻撃の評価

特徴選択手法

2023.10.14 2025.04.03

文献データベース

Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation

Authors: Yangsibo Huang, Samyak Gupta, Mengzhou Xia, Kai Li, Danqi Chen | Published: 2023-10-10

プロンプトインジェクション

攻撃の評価

敵対的攻撃

2023.10.10 2025.04.03

文献データベース

Test-Time Poisoning Attacks Against Test-Time Adaptation Models

Authors: Tianshuo Cong, Xinlei He, Yun Shen, Yang Zhang | Published: 2023-08-16

ポイズニング

モデル性能評価

攻撃の評価

2023.08.16 2025.04.03

文献データベース

Diff-CAPTCHA: An Image-based CAPTCHA with Security Enhanced by Denoising Diffusion Model

Authors: Ran Jiang, Sanfeng Zhang, Linfeng Liu, Yanbing Peng | Published: 2023-08-16

セキュリティ保証

攻撃の評価

透かしの耐久性

2023.08.16 2025.04.03

文献データベース