JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit Authors: Zeqing He, Zhibo Wang, Zhixuan Chu, Huiyu Xu, Wenhui Zhang, Qinglong Wang, Rui Zheng | Published: 2024-11-17 | Updated: 2025-04-24 ジャイルブレイク攻撃に関する具体的な言及があり、関連性が高いためプロンプトインジェクション大規模言語モデル 2024.11.17 文献データベース