クエリ生成手法

HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models

Authors: Sidhant Narula, Javad Rafiei Asl, Mohammad Ghasemigol, Eduardo Blanco, Daniel Takabi | Published: 2025-10-21

クエリ生成手法

大規模言語モデル

脱獄手法

2025.10.21

文献データベース

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Authors: Xu Zhang, Hao Li, Zhichao Lu | Published: 2025-10-20

クエリ生成手法

プロンプトインジェクション

大規模言語モデル

2025.10.20

文献データベース

Automated Static Vulnerability Detection via a Holistic Neuro-symbolic Approach

Authors: Penghui Li, Songchen Yao, Josef Sarfati Korich, Changhua Luo, Jianjia Yu, Yinzhi Cao, Junfeng Yang | Published: 2025-04-22

クエリ生成手法

プロンプトインジェクション

脆弱性検出

2025.04.22

文献データベース

BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models

Authors: Jiaqi Xue, Mengxin Zheng, Yebowen Hu, Fei Liu, Xun Chen, Qian Lou | Published: 2024-06-03 | Updated: 2024-06-06

LLM性能評価

クエリの多様性

クエリ生成手法

2024.06.03 2025.04.03

文献データベース

ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models

Authors: Heng Jin, Chaoyu Zhang, Shanghao Shi, Wenjing Lou, Y. Thomas Hou | Published: 2024-05-03 | Updated: 2024-09-10

クエリ生成手法

フィンガープリンティング手法

プロンプトインジェクション

2024.05.03 2025.04.03

文献データベース

Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

Authors: Anay Mehrotra, Manolis Zampetakis, Paul Kassianik, Blaine Nelson, Hyrum Anderson, Yaron Singer, Amin Karbasi | Published: 2023-12-04 | Updated: 2024-10-31

クエリ生成手法

プロンプトインジェクション

透かし評価

2023.12.04 2025.04.03

文献データベース

DualCF: Efficient Model Extraction Attack from Counterfactual Explanations

Authors: Yongjie Wang, Hangwei Qian, Chunyan Miao | Published: 2022-05-13

DFLに対する攻撃手法

クエリ生成手法

攻撃手法

2022.05.13 2025.04.03

文献データベース

Sparse-RS: a versatile framework for query-efficient sparse black-box adversarial attacks

Authors: Francesco Croce, Maksym Andriushchenko, Naman D. Singh, Nicolas Flammarion, Matthias Hein | Published: 2020-06-23 | Updated: 2022-02-08

クエリ生成手法

強化学習

敵対的攻撃手法

2020.06.23 2025.04.03

文献データベース

Simple Black-box Adversarial Attacks

Authors: Chuan Guo, Jacob R. Gardner, Yurong You, Andrew Gordon Wilson, Kilian Q. Weinberger | Published: 2019-05-17 | Updated: 2019-08-15

クエリ生成手法

性能評価手法

敵対的訓練

2019.05.17 2025.04.03

文献データベース

Parsimonious Black-Box Adversarial Attacks via Efficient Combinatorial Optimization

Authors: Seungyong Moon, Gaon An, Hyun Oh Song | Published: 2019-05-16 | Updated: 2022-10-18

クエリ生成手法

ポイズニング

最適化手法

2019.05.16 2025.04.03

文献データベース