AIセキュリティポータル
  • Articles
  • Literature Database
  • AIセキュリティマップ
  • 関連リソース
    • 関連ニュース
    • リンク集
  • About Us

ガードレール手法

MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks

Authors: Giandomenico Cornacchia, Giulio Zizzo, Kieran Fraser, Muhammad Zaid Hameed, Ambrish Rawat, Mark Purcell | Published: 2024-09-26 | Updated: 2024-10-04
ガードレール手法
コンテンツモデレーション
プロンプトインジェクション
2024.09.26 2025.05.12
Literature Database

Safeguarding Large Language Models: A Survey

Authors: Yi Dong, Ronghui Mu, Yanghao Zhang, Siqi Sun, Tianle Zhang, Changshun Wu, Gaojie Jin, Yi Qi, Jinwei Hu, Jie Meng, Saddek Bensalem, Xiaowei Huang | Published: 2024-06-03
LLMセキュリティ
ガードレール手法
プロンプトインジェクション
2024.06.03 2025.05.12
Literature Database
AIセキュリティポータル
  • Terms of Use
  • Privacy Policy
  • Follow us
Copyright© KDDI Research, Inc. All Rights Reserved.
    • Articles
    • Literature Database
    • AIセキュリティマップ
    • 関連リソース
      • 関連ニュース
      • リンク集
    • About Us
  • AIセキュリティポータル