防御手法の効果分析

Securing Large Language Models (LLMs) from Prompt Injection Attacks

Authors: Omar Farooq Khan Suri, John McCrae | Published: 2025-12-01

インダイレクトプロンプトインジェクション

サイバーセキュリティ

防御手法の効果分析

2025.12.01

文献データベース

SPEAR++: Scaling Gradient Inversion via Sparsely-Used Dictionary Learning

Authors: Alexander Bakarsky, Dimitar I. Dimitrov, Maximilian Baader, Martin Vechev | Published: 2025-10-28

スパース性の影響

プライバシー保護

防御手法の効果分析

2025.10.28

文献データベース

Untargeted Jailbreak Attack

Authors: Xinzhe Huang, Wenjing Hu, Tianhang Zheng, Kedong Xiu, Xiaojun Jia, Di Wang, Zhan Qin, Kui Ren | Published: 2025-10-03 | Updated: 2025-10-28

プロンプトインジェクション

プロンプトリーキング

防御手法の効果分析

2025.10.03

文献データベース

PandaGuard: Systematic Evaluation of LLM Safety in the Era of Jailbreaking Attacks

Authors: Guobin Shen, Dongcheng Zhao, Linghao Feng, Xiang He, Jihang Wang, Sicheng Shen, Haibo Tong, Yiting Dong, Jindong Li, Xiang Zheng, Yi Zeng | Published: 2025-05-20

LLMの安全機構の解除

プロンプトインジェクション

防御手法の効果分析

2025.05.20

文献データベース

FlowPure: Continuous Normalizing Flows for Adversarial Purification

Authors: Elias Collaert, Abel Rodríguez, Sander Joos, Lieven Desmet, Vera Rimmer | Published: 2025-05-19

堅牢性向上手法

敵対的学習

防御手法の効果分析

2025.05.19

文献データベース

Secure Transfer Learning: Training Clean Models Against Backdoor in (Both) Pre-trained Encoders and Downstream Datasets

Authors: Yechao Zhang, Yuxuan Zhou, Tianyu Li, Minghui Li, Shengshan Hu, Wei Luo, Leo Yu Zhang | Published: 2025-04-16

バックドアモデルの検知

学習の改善

防御手法の効果分析

2025.04.16

文献データベース

STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models

Authors: Xunguang Wang, Wenxuan Wang, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang | Published: 2025-03-23

プロンプトインジェクション

悪意のあるプロンプト

防御手法の効果分析

2025.03.23 2025.04.03

文献データベース

Bias Busters: Robustifying DL-based Lithographic Hotspot Detectors Against Backdooring Attacks

Authors: Kang Liu, Benjamin Tan, Gaurav Rajavendra Reddy, Siddharth Garg, Yiorgos Makris, Ramesh Karri | Published: 2020-04-26

ポイズニング

深層学習技術

防御手法の効果分析

2020.04.26 2025.04.03

文献データベース

Minimax Defense against Gradient-based Adversarial Attacks

Authors: Blerta Lindqvist, Rauf Izmailov | Published: 2020-02-04

敵対的摂動手法

敵対的移転性

防御手法の効果分析

2020.02.04 2025.04.03

文献データベース

Defending Adversarial Attacks via Semantic Feature Manipulation

Authors: Shuo Wang, Tianle Chen, Surya Nepal, Carsten Rudolph, Marthie Grobler, Shangyu Chen | Published: 2020-02-03 | Updated: 2020-04-22

ロバスト性向上手法

敵対的サンプル

防御手法の効果分析

2020.02.03 2025.04.03

文献データベース