You Cannot Escape Me: Detecting Evasions of SIEM Rules in Enterprise Networks Authors: Rafael Uetz, Marco Herzog, Louis Hackländer, Simon Schwarz, Martin Henze | Published: 2023-11-16 | Updated: 2023-12-19 ルール帰属攻撃手法適応型誤用検出 2023.11.16 2025.04.03 文献データベース
Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment Authors: Haoran Wang, Kai Shu | Published: 2023-11-15 | Updated: 2024-08-15 プロンプトインジェクション攻撃手法自然言語処理 2023.11.15 2025.04.03 文献データベース
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts Authors: Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun | Published: 2023-11-15 | Updated: 2024-01-20 プロンプトインジェクション攻撃手法顔認識 2023.11.15 2025.04.03 文献データベース
Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications Authors: Fengqing Jiang, Zhangchen Xu, Luyao Niu, Boxin Wang, Jinyuan Jia, Bo Li, Radha Poovendran | Published: 2023-11-07 | Updated: 2023-11-29 プロンプトインジェクション実験的検証攻撃手法 2023.11.07 2025.04.03 文献データベース
Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition Authors: Sander Schulhoff, Jeremy Pinto, Anaum Khan, Louis-François Bouchard, Chenglei Si, Svetlina Anati, Valen Tagliabue, Anson Liu Kost, Christopher Carnahan, Jordan Boyd-Graber | Published: 2023-10-24 | Updated: 2024-03-03 テキスト生成手法プロンプトインジェクション攻撃手法 2023.10.24 2025.04.03 文献データベース
Deceptive Fairness Attacks on Graphs via Meta Learning Authors: Jian Kang, Yinglong Xia, Ross Maciejewski, Jiebo Luo, Hanghang Tong | Published: 2023-10-24 GNN攻撃手法評価指標 2023.10.24 2025.04.03 文献データベース
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models Authors: Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang, Furong Huang, Ani Nenkova, Tong Sun | Published: 2023-10-23 | Updated: 2023-12-14 プロンプトインジェクション安全性アライメント攻撃手法 2023.10.23 2025.04.03 文献データベース
A Comprehensive Study of Privacy Risks in Curriculum Learning Authors: Joann Qiongna Chen, Xinlei He, Zheng Li, Yang Zhang, Zhou Li | Published: 2023-10-16 メンバーシップ推論モデル性能評価攻撃手法 2023.10.16 2025.04.03 文献データベース
LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors Authors: Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao, Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen | Published: 2023-08-26 | Updated: 2023-10-14 トリガーの検知バックドアモデルの検知攻撃手法 2023.08.26 2025.04.03 文献データベース
Why Don’t You Clean Your Glasses? Perception Attacks with Dynamic Optical Perturbations Authors: Yi Han, Matthew Chan, Eric Wengrowski, Zhuohuan Li, Nils Ole Tippenhauer, Mani Srivastava, Saman Zonouz, Luis Garcia | Published: 2023-07-24 | Updated: 2023-07-27 攻撃手法敵対的サンプル物理攻撃 2023.07.24 2025.04.03 文献データベース