Revisiting Character-level Adversarial Attacks for Language Models Authors: Elias Abad Rocamora, Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher | Published: 2024-05-07 | Updated: 2024-09-04 ウォーターマーキング損失関数攻撃手法 2024.05.07 2025.04.03 文献データベース
Boosting Jailbreak Attack with Momentum Authors: Yihao Zhang, Zeming Wei | Published: 2024-05-02 ウォーターマーキングプロンプトインジェクション攻撃手法 2024.05.02 2025.04.03 文献データベース
Attacks on Third-Party APIs of Large Language Models Authors: Wanru Zhao, Vidit Khazanchi, Haodi Xing, Xuanli He, Qiongkai Xu, Nicholas Donald Lane | Published: 2024-04-24 LLMセキュリティプロンプトインジェクション攻撃手法 2024.04.24 2025.04.03 文献データベース
MISLEAD: Manipulating Importance of Selected features for Learning Epsilon in Evasion Attack Deception Authors: Vidit Khazanchi, Pavan Kulkarni, Yuvaraj Govindarajulu, Manojkumar Parmar | Published: 2024-04-24 | Updated: 2024-05-02 モデルの解釈性攻撃手法敵対的訓練 2024.04.24 2025.04.03 文献データベース
Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective Authors: Khushnaseeb Roshan, Aasim Zafar | Published: 2024-04-15 DDoS攻撃検出攻撃手法敵対的サンプル 2024.04.15 2025.04.03 文献データベース
Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs Authors: Bibek Upadhayay, Vahid Behzadan | Published: 2024-04-09 LLMセキュリティプロンプトインジェクション攻撃手法 2024.04.09 2025.04.03 文献データベース
Aggressive or Imperceptible, or Both: Network Pruning Assisted Hybrid Byzantines in Federated Learning Authors: Emre Ozfatura, Kerem Ozfatura, Alptekin Kupcu, Deniz Gunduz | Published: 2024-04-09 ポイズニング攻撃手法防御手法 2024.04.09 2025.04.03 文献データベース
BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack Authors: Viet Quoc Vo, Ehsan Abbasnejad, Damith C. Ranasinghe | Published: 2024-04-08 | Updated: 2024-06-01 ウォーターマーキング攻撃手法敵対的サンプル 2024.04.08 2025.04.03 文献データベース
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks Authors: Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion | Published: 2024-04-02 | Updated: 2024-10-07 LLMセキュリティプロンプトインジェクション攻撃手法 2024.04.02 2025.04.03 文献データベース
Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack Authors: Ying Zhou, Ben He, Le Sun | Published: 2024-04-02 LLMセキュリティウォーターマーキング攻撃手法 2024.04.02 2025.04.03 文献データベース