Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models Authors: Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng | Published: 2024-10-05 LLMセキュリティプロンプトインジェクション攻撃手法 2024.10.05 2025.04.03 文献データベース
Impact of White-Box Adversarial Attacks on Convolutional Neural Networks Authors: Rakesh Podder, Sudipto Ghosh | Published: 2024-10-02 モデル性能評価攻撃手法敵対的サンプル 2024.10.02 2025.04.03 文献データベース
Hard-Label Cryptanalytic Extraction of Neural Network Models Authors: Yi Chen, Xiaoyang Dong, Jian Guo, Yantian Shen, Anyu Wang, Xiaoyun Wang | Published: 2024-09-18 モデル抽出攻撃攻撃手法計算複雑性 2024.09.18 2025.04.03 文献データベース
Context-Aware Membership Inference Attacks against Pre-trained Large Language Models Authors: Hongyan Chang, Ali Shahin Shamsabadi, Kleomenis Katevas, Hamed Haddadi, Reza Shokri | Published: 2024-09-11 LLMセキュリティメンバーシップ推論攻撃手法 2024.09.11 2025.04.03 文献データベース
AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs Authors: Lijia Lv, Weigang Zhang, Xuehai Tang, Jie Wen, Feng Liu, Jizhong Han, Songlin Hu | Published: 2024-09-11 LLMセキュリティプロンプトインジェクション攻撃手法 2024.09.11 2025.04.03 文献データベース
On the Weaknesses of Backdoor-based Model Watermarking: An Information-theoretic Perspective Authors: Aoting Hu, Yanzhi Chen, Renjie Xie, Adrian Weller | Published: 2024-09-10 ウォーターマーキング攻撃手法透かしの耐久性 2024.09.10 2025.04.03 文献データベース
Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA) Authors: Alan Aqrawi, Arian Abbasi | Published: 2024-09-04 | Updated: 2024-09-10 LLMセキュリティコンテンツモデレーション攻撃手法 2024.09.04 2025.04.03 文献データベース
Membership Inference Attacks Against In-Context Learning Authors: Rui Wen, Zheng Li, Michael Backes, Yang Zhang | Published: 2024-09-02 プロンプトインジェクションメンバーシップ推論攻撃手法 2024.09.02 2025.04.03 文献データベース
Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack Authors: Guanzhong Chen, Zhenghan Qin, Mingxin Yang, Yajie Zhou, Tao Fan, Tianyu Du, Zenglin Xu | Published: 2024-09-02 | Updated: 2024-09-04 LLMセキュリティプロンプトインジェクション攻撃手法 2024.09.02 2025.04.03 文献データベース
Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks Authors: Yu He, Boheng Li, Yao Wang, Mengda Yang, Juan Wang, Hongxin Hu, Xingyu Zhao | Published: 2024-08-31 | Updated: 2024-09-04 メンバーシップ推論攻撃手法難易度キャリブレーション 2024.08.31 2025.04.03 文献データベース