AIセキュリティポータル
  • 解説記事
  • 文献データベース
  • AIセキュリティマップ
  • 関連リソース
    • 関連ニュース
    • リンク集
  • About us
TOP
AIセキュリティマップ

負の影響「法に背く目的でAIを利用」

AIセキュリティポータル編集部
2025.05.15

AIセキュリティマップにマッピングされた外部作用的側面における負の影響「法に背く目的でAIを利用」のセキュリティ対象、それをもたらす攻撃・要因、および防御手法・対策を示しています。

セキュリティ対象

  • 社会

攻撃・要因

  • 機密性の毀損
  • 可用性の悪用
  • 精度の悪用
  • 制御可能性の毀損

防御手法・対策

  • アライメント
  • AIへのアクセス制御

参考文献

アライメント

  • Training language models to follow instructions with human feedback, 2022
  • Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, 2022
  • Constitutional AI: Harmlessness from AI Feedback, 2022
  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model, 2023
  • A General Theoretical Paradigm to Understand Learning from Human Preferences, 2023
  • RRHF: Rank Responses to Align Language Models with Human Feedback without tears, 2023
  • Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations, 2023
  • Self-Rewarding Language Models, 2024
  • KTO: Model Alignment as Prospect Theoretic Optimization, 2024
  • SimPO: Simple Preference Optimization with a Reference-Free Reward, 2024
AIセキュリティポータル編集部
AIセキュリティポータル
  • サイトのご利用にあたって
  • プライバシーポリシー
  • お問い合わせ
  • Follow us
Copyright© KDDI Research, Inc. All Rights Reserved.
    • 解説記事
    • 文献データベース
    • AIセキュリティマップ
    • 関連リソース
      • 関連ニュース
      • リンク集
    • About us
  • AIセキュリティポータル