プロンプトインジェクション

SecAlign: Defending Against Prompt Injection with Preference Optimization

Authors: Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, David Wagner, Chuan Guo | Published: 2024-10-07 | Updated: 2025-01-13

LLMセキュリティ

プロンプトインジェクション

防御手法

2024.10.07 2025.04.03

文献データベース

Enhancing Android Malware Detection: The Influence of ChatGPT on Decision-centric Task

Authors: Yao Li, Sen Fang, Tao Zhang, Haipeng Cai | Published: 2024-10-06

プロンプトインジェクション

マルウェア分類

2024.10.06 2025.04.03

文献データベース

Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models

Authors: Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng | Published: 2024-10-05

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.10.05 2025.04.03

文献データベース

ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs

Authors: Lu Yan, Siyuan Cheng, Xuan Chen, Kaiyuan Zhang, Guangyu Shen, Zhuo Zhang, Xiangyu Zhang | Published: 2024-10-05

Negative Training

バックドア攻撃

プロンプトインジェクション

2024.10.05 2025.04.03

文献データベース

Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs

Authors: Tomas Bueno Momcilovic, Dian Balta, Beat Buesser, Giulio Zizzo, Mark Purcell | Published: 2024-10-04

LLMセキュリティ

プロンプトインジェクション

動的脆弱性管理

2024.10.04 2025.04.03

文献データベース

Safeguard is a Double-edged Sword: Denial-of-service Attack on Large Language Models

Authors: Qingzhao Zhang, Ziyang Xiong, Z. Morley Mao | Published: 2024-10-03 | Updated: 2024-10-23

プロンプトインジェクション

モデルDoS

2024.10.03 2025.04.03

文献データベース

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Authors: Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang | Published: 2024-10-03

バックドア攻撃

プロンプトインジェクション

2024.10.03 2025.04.03

文献データベース

Optimizing Adaptive Attacks against Content Watermarks for Language Models

Authors: Abdulrahman Diaa, Toluwani Aremu, Nils Lukas | Published: 2024-10-03

LLMセキュリティ

ウォーターマーキング

プロンプトインジェクション

2024.10.03 2025.04.03

文献データベース

Robust LLM safeguarding via refusal feature adversarial training

Authors: Lei Yu, Virginie Do, Karen Hambardzumyan, Nicola Cancedda | Published: 2024-09-30 | Updated: 2025-03-20

プロンプトインジェクション

モデルの堅牢性

敵対的学習

2024.09.30 2025.04.03

文献データベース

System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective

Authors: Fangzhou Wu, Ethan Cecchetti, Chaowei Xiao | Published: 2024-09-27 | Updated: 2024-10-10

LLMセキュリティ

プロンプトインジェクション

実行トレースの妨害

2024.09.27 2025.04.03

文献データベース