LLMによる有害な応答を防ぐ、安全機構　|　AIセキュリティポータル

はじめに

本記事は、大規模言語モデル（Large Language Model、LLM）の安全機構について解説します。LLMはChatGPTなどのような生成AIサービスに利用されており、膨大な知識を有していますが、中には有害な内容も学習しています。LLMによるそのような有害な内容の生成を防ぐために安全機構は重要な対策です。本記事を読むことで、LLMの安全機構がどのように設置されているかについて理解を深めることができます。

※このテーマに関するより専門的な技術解説についてご興味のある方は、「LLMの安全機構」をご覧ください。

LLMの安全機構とは？

LLMの安全機構とは、LLMが作成者の意図した安全かつ倫理的な方法で動作するようにLLMを訓練することで得られるLLMの出力に関するポリシーやルールのことです。この安全機構は、LLMが有害な応答を生成することを防ぐために非常に重要であり、LLMを使ったサービスを提供する際には必須の対策とされています。

安全機構はどうやって設置する？

LLMに安全機構を設置するためには、LLMに人間の常識や価値観を伝える必要があります。具体的には、人間の常識や価値観を反映したデータをもとに、LLMを訓練する処理が行われます。以下ではその代表的な方法について解説します。

模範解答を利用する方法

LLMに安全機構を設置する方法の一つとして、人間により作成された模範解答を用いた方法があります。模範解答はある指示とそれに対して作成されるものです。例えば、「感動的な昔話を書いて」という質問に対して、「昔々あるところに…」というような模範解答を用意します。このようなペアを複数作成し、それらを使ってLLMを訓練することで、LLMが人間の指示に対して適切な回答を作成できるようになります。このとき、有害な応答を誘発させるような危険な指示に対しては拒否をするような模範解答を用意することで、安全な応答を行うようにLLMを訓練できます。特にLLMを訓練する際に、できるだけ有害な内容を含まないデータで構成された、質の高いデータセットを利用することで、安全性が高まることが知られています[1]。これは人間が敬語や会話の受け答えを学ぶときに、正しい表現が載った良い教科書などをもとに学習（訓練）することと類似するため、直感的にも理解しやすい方法です。LLMに対しても、洗練された安全性の高い内容を含んだデータセットを利用することで、より強力なLLMの安全機構を設置できます。

一方で、正解データを用いた安全機構の設置方法は、LLMの安全性を高めるために効果的ですが、モデルが以前学習した知識を忘れてしまうという問題[2]や、安全な応答に関するデータが不十分な場合は有害な発言が出力される可能性があるという問題があります。

人間のフィードバックを利用する方法

より強力な安全機構を設置するための方法として、人間のフィードバックを利用する方法があります。この方法は一般的にReinforcement learning from human feedback (RLHF)と呼ばれています。人間のフィードバックの収集は模範解答と比べて、より簡単かつ低コストで用意できるため、RLHFはLLMの安全機構を設置するために広く利用されています。RLHFでは、LLMの出力に対して人間のフィードバックを用意します。そのフィードバックをもとにLLMの訓練を行うため、微妙なニュアンスや、人間の価値観をLLMに伝えることが可能となります。これにより、より強力な安全機構が設置され、有害な出力を抑制することができます。

安全機構があれば安心？

安全機構はLLMによる有害な応答の生成を抑制可能ですが、現状では課題があります。特に深刻な課題として、プロンプトインジェクションと呼ばれる攻撃による安全機構の解除が挙げられます。LLMは人間の指示に従うように訓練されているため、有害な応答を誘発させるためのプロンプトインジェクションの指示に従ってしまい、安全機構を無視してしまうことがあります。LLMを用いたサービスを利用する際はそのようなリスクに注意が必要です。

まとめ

本記事では、LLMの安全機構について解説しました。LLMを使う際に必須とも言える安全機構の設置に関する研究は現在も盛んに行われており、より安全なLLMの実現が求められています。一方で安全機構は解除されてしまう場合もあるため、注意が必要です。LLMの安全機構に関するより詳細な解説も専門家向け記事として掲載していますので、より専門的な知識や研究動向を知りたい方はそちらもご覧ください。

参考文献

[1] Touvron, Hugo, et al. “Llama 2: Open foundation and fine-tuned chat models.” arXiv preprint arXiv:2307.09288 (2023).

[2] Yi, Sibo, et al. “Jailbreak attacks and defenses against large language models: A survey.” arXiv preprint arXiv:2407.04295 (2024).