攻撃手法

Revisiting Character-level Adversarial Attacks for Language Models

Authors: Elias Abad Rocamora, Yongtao Wu, Fanghui Liu, Grigorios G. Chrysos, Volkan Cevher | Published: 2024-05-07 | Updated: 2024-09-04
ウォーターマーキング
損失関数
攻撃手法

Boosting Jailbreak Attack with Momentum

Authors: Yihao Zhang, Zeming Wei | Published: 2024-05-02
ウォーターマーキング
プロンプトインジェクション
攻撃手法

Attacks on Third-Party APIs of Large Language Models

Authors: Wanru Zhao, Vidit Khazanchi, Haodi Xing, Xuanli He, Qiongkai Xu, Nicholas Donald Lane | Published: 2024-04-24
LLMセキュリティ
プロンプトインジェクション
攻撃手法

MISLEAD: Manipulating Importance of Selected features for Learning Epsilon in Evasion Attack Deception

Authors: Vidit Khazanchi, Pavan Kulkarni, Yuvaraj Govindarajulu, Manojkumar Parmar | Published: 2024-04-24 | Updated: 2024-05-02
モデルの解釈性
攻撃手法
敵対的訓練

Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective

Authors: Khushnaseeb Roshan, Aasim Zafar | Published: 2024-04-15
DDoS攻撃検出
攻撃手法
敵対的サンプル

Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs

Authors: Bibek Upadhayay, Vahid Behzadan | Published: 2024-04-09
LLMセキュリティ
プロンプトインジェクション
攻撃手法

Aggressive or Imperceptible, or Both: Network Pruning Assisted Hybrid Byzantines in Federated Learning

Authors: Emre Ozfatura, Kerem Ozfatura, Alptekin Kupcu, Deniz Gunduz | Published: 2024-04-09
ポイズニング
攻撃手法
防御手法

BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack

Authors: Viet Quoc Vo, Ehsan Abbasnejad, Damith C. Ranasinghe | Published: 2024-04-08 | Updated: 2024-06-01
ウォーターマーキング
攻撃手法
敵対的サンプル

Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

Authors: Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion | Published: 2024-04-02 | Updated: 2024-10-07
LLMセキュリティ
プロンプトインジェクション
攻撃手法

Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack

Authors: Ying Zhou, Ben He, Le Sun | Published: 2024-04-02
LLMセキュリティ
ウォーターマーキング
攻撃手法