安全性と有用性のトレードオフ

SoK: Evaluating Jailbreak Guardrails for Large Language Models

Authors: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang | Published: 2025-06-12

プロンプトインジェクション

安全性と有用性のトレードオフ

脱獄攻撃手法

2025.06.12

文献データベース

Authors: Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat | Published: 2025-04-28

ユーザー識別システム

大規模言語モデル

安全性と有用性のトレードオフ

2025.04.28

文献データベース

Authors: Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song | Published: 2025-03-05 | Updated: 2025-06-12

プロンプトインジェクション

ロバスト性向上手法

安全性と有用性のトレードオフ

2025.03.05

文献データベース