LLMセキュリティ

Jailbreaking and Mitigation of Vulnerabilities in Large Language Models

Authors: Benji Peng, Keyu Chen, Qian Niu, Ziqian Bi, Ming Liu, Pohsun Feng, Tianyang Wang, Lawrence K. Q. Yan, Yizhu Wen, Yichao Zhang, Caitlyn Heqi Yin | Published: 2024-10-20 | Updated: 2025-05-08

LLMセキュリティ

LLMの安全機構の解除

プロンプトインジェクション

2024.10.20

文献データベース

SecAlign: Defending Against Prompt Injection with Preference Optimization

Authors: Sizhe Chen, Arman Zharmagambetov, Saeed Mahloujifar, Kamalika Chaudhuri, David Wagner, Chuan Guo | Published: 2024-10-07 | Updated: 2025-01-13

LLMセキュリティ

プロンプトインジェクション

防御手法

2024.10.07 2025.04.03

文献データベース

Taylor Unswift: Secured Weight Release for Large Language Models via Taylor Expansion

Authors: Guanchu Wang, Yu-Neng Chuang, Ruixiang Tang, Shaochen Zhong, Jiayi Yuan, Hongye Jin, Zirui Liu, Vipin Chaudhary, Shuai Xu, James Caverlee, Xia Hu | Published: 2024-10-06

LLMセキュリティ

暗号技術

2024.10.06 2025.04.03

文献データベース

Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models

Authors: Yiting Dong, Guobin Shen, Dongcheng Zhao, Xiang He, Yi Zeng | Published: 2024-10-05

LLMセキュリティ

プロンプトインジェクション

攻撃手法

2024.10.05 2025.04.03

文献データベース

Towards Assuring EU AI Act Compliance and Adversarial Robustness of LLMs

Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell, Dian Balta | Published: 2024-10-04

AIコンプライアンス

LLMセキュリティ

フレームワーク

2024.10.04 2025.04.03

文献データベース

Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs

Authors: Tomas Bueno Momcilovic, Dian Balta, Beat Buesser, Giulio Zizzo, Mark Purcell | Published: 2024-10-04

LLMセキュリティ

プロンプトインジェクション

動的脆弱性管理

2024.10.04 2025.04.03

文献データベース

Optimizing Adaptive Attacks against Content Watermarks for Language Models

Authors: Abdulrahman Diaa, Toluwani Aremu, Nils Lukas | Published: 2024-10-03

LLMセキュリティ

ウォーターマーキング

プロンプトインジェクション

2024.10.03 2025.04.03

文献データベース

System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective

Authors: Fangzhou Wu, Ethan Cecchetti, Chaowei Xiao | Published: 2024-09-27 | Updated: 2024-10-10

LLMセキュリティ

プロンプトインジェクション

実行トレースの妨害

2024.09.27 2025.04.03

文献データベース

Multi-Designated Detector Watermarking for Language Models

Authors: Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu | Published: 2024-09-26 | Updated: 2024-10-01

LLMセキュリティ

ウォーターマーキング

透かし評価

2024.09.26 2025.04.03

文献データベース

Order of Magnitude Speedups for LLM Membership Inference

Authors: Rongting Zhang, Martin Bertran, Aaron Roth | Published: 2024-09-22 | Updated: 2024-09-24

LLMセキュリティ

メンバーシップ推論

低コストのメンバシップ推論手法

2024.09.22 2025.04.03

文献データベース