多言語LLMジャイルブレイク

A Cross-Language Investigation into Jailbreak Attacks in Large Language Models

Authors: Jie Li, Yi Liu, Chongyang Liu, Ling Shi, Xiaoning Ren, Yaowen Zheng, Yang Liu, Yinxing Xue | Published: 2024-01-30

キャラクター役割演技

プロンプトインジェクション

多言語LLMジャイルブレイク

2024.01.30 2025.04.03

文献データベース

Bergeron: Combating Adversarial Attacks through a Conscience-Based Alignment Framework

Authors: Matthew Pisano, Peter Ly, Abraham Sanders, Bingsheng Yao, Dakuo Wang, Tomek Strzalkowski, Mei Si | Published: 2023-11-16 | Updated: 2024-08-18

プロンプトインジェクション

多言語LLMジャイルブレイク

敵対的攻撃

2023.11.16 2025.04.03

文献データベース