AIセキュリティポータル
  • Articles
  • Literature Database
  • AIセキュリティマップ
  • 関連リソース
    • 関連ニュース
    • リンク集
  • About Us

過剰拒否緩和

Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks

Authors: Xin Yi, Yue Li, Linlin Wang, Xiaoling Wang, Liang He | Published: 2025-01-18
プロンプトインジェクション
敵対的訓練
過剰拒否緩和
2025.01.18 2025.05.12
Literature Database
AIセキュリティポータル
  • Terms of Use
  • Privacy Policy
  • Follow us
Copyright© KDDI Research, Inc. All Rights Reserved.
    • Articles
    • Literature Database
    • AIセキュリティマップ
    • 関連リソース
      • 関連ニュース
      • リンク集
    • About Us
  • AIセキュリティポータル