SoK: Evaluating Jailbreak Guardrails for Large Language Models Authors: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang | Published: 2025-06-12 プロンプトインジェクション安全性と有用性のトレードオフ脱獄攻撃手法 2025.06.12 文献データベース
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat | Published: 2025-04-28 ユーザー識別システム大規模言語モデル安全性と有用性のトレードオフ 2025.04.28 文献データベース
Improving LLM Safety Alignment with Dual-Objective Optimization Authors: Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song | Published: 2025-03-05 | Updated: 2025-06-12 プロンプトインジェクションロバスト性向上手法安全性と有用性のトレードオフ 2025.03.05 文献データベース