文献データベース

Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks

Authors: Chen Xiong, Xiangyu Qi, Pin-Yu Chen, Tsung-Yi Ho | Published: 2024-05-30 | Updated: 2025-06-04

DPPセット生成

プロンプトインジェクション

攻撃手法

2024.05.30

文献データベース

Robust Kernel Hypothesis Testing under Data Corruption

Authors: Antonin Schrab, Ilmun Kim | Published: 2024-05-30

データプライバシー評価

データ保護手法

仮説検定

2024.05.30 2025.04.03

文献データベース

Efficient Black-box Adversarial Attacks via Bayesian Optimization Guided by a Function Prior

Authors: Shuyu Cheng, Yibo Miao, Yinpeng Dong, Xiao Yang, Xiao-Shan Gao, Jun Zhu | Published: 2024-05-29

アルゴリズム

攻撃手法

最適化問題

2024.05.29 2025.04.03

文献データベース

Toxicity Detection for Free

Authors: Zhanhao Hu, Julien Piet, Geng Zhao, Jiantao Jiao, David Wagner | Published: 2024-05-29 | Updated: 2024-11-08

インダイレクトプロンプトインジェクション

プロンプトの検証

悪意のあるプロンプト

2024.05.29 2025.04.03

文献データベース

PureGen: Universal Data Purification for Train-Time Poison Defense via Generative Model Dynamics

Authors: Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Alexander Branch, Gregory Pottie | Published: 2024-05-28 | Updated: 2024-06-02

ウォーターマーキング

バックドア攻撃

ポイズニング

2024.05.28 2025.04.03

文献データベース

Cross-Modal Safety Alignment: Is textual unlearning all you need?

Authors: Trishna Chakraborty, Erfan Shayegani, Zikui Cai, Nael Abu-Ghazaleh, M. Salman Asif, Yue Dong, Amit K. Roy-Chowdhury, Chengyu Song | Published: 2024-05-27 | Updated: 2025-10-14

プライバシー保護技術

出力の有害度の算出

大規模言語モデル

2024.05.27

文献データベース

Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems

Authors: Ruochen Jiao, Shaoyuan Xie, Justin Yue, Takami Sato, Lixu Wang, Yixuan Wang, Qi Alfred Chen, Qi Zhu | Published: 2024-05-27 | Updated: 2024-10-05

LLMセキュリティ

バックドア攻撃

プロンプトインジェクション

2024.05.27 2025.04.03

文献データベース

Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models

Authors: Xijie Huang, Xinyuan Wang, Hantao Zhang, Yinghao Zhu, Jiawen Xi, Jingkun An, Hao Wang, Hao Liang, Chengwei Pan | Published: 2024-05-26 | Updated: 2024-08-21

プロンプトインジェクション

医療AIの脅威

攻撃手法

2024.05.26 2025.04.03

文献データベース

Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character

Authors: Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu | Published: 2024-05-25 | Updated: 2024-06-12

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.05.25 2025.04.03

文献データベース

Revisit, Extend, and Enhance Hessian-Free Influence Functions

Authors: Ziao Yang, Han Yue, Jian Chen, Hongfu Liu | Published: 2024-05-25 | Updated: 2024-10-20

ポイズニング

モデル性能評価

評価手法

2024.05.25 2025.04.03

文献データベース