負の影響「有害な応答の出力」

AIセキュリティマップにマッピングされた情報システム的側面における負の影響「有害な応答の出力」をもたらす攻撃・要因、それに対する防御手法・対策、および対象のAI技術・タスク・データを示しています。また、関連する外部作用的側面の要素も示しています。

攻撃・要因

防御手法・対策

開発・活用における適用フェーズ

1. データ収集・前処理

2. モデルの選定・学習・検証

  • モデルの安全性評価

3. システムの実装

  • LLMガードレール

4. システムの提供・運用・保守

  • 出力の有害度の算出
  • プロンプトの検証

5. システムの利用

対象のAI技術

  • LLM

タスク

  • 生成

対象のデータ

  • テキスト

関連する外部作用的側面

参考文献

LLMガードレール

モデルの安全性評価