ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いため

JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit

Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24
ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いため
プロンプトインジェクション
大規模言語モデル