LLMの安全機構

はじめに

本記事は、大規模言語モデル（Large Language Model, LLM）の安全機構について解説します。LLMはChatGPTなどのような生成AIサービスに利用されており、膨大な知識を有していますが、中には有害な内容も学習しています。安全機構はLLMによる有害な内容の生成を防ぐために重要な対策です。本記事を読むことで、LLMの安全機構の設置を実現する方法や最新の動向について理解を深めることができます。

LLMの安全機構

LLMの安全機構とは、LLMが作成者の意図した安全かつ倫理的な方法で動作することを目的としてLLMのパラメーターを調整することで得られるポリシーのことです。この安全機構はLLMが有害なコンテンツや誤情報の生成を防ぐために非常に重要であり、LLMを使ったサービスを提供する際には必須の対策とされています。安全機構は「アライメント」と呼ばれる技術を適用することでLLMに設定することができます。アライメントとは、LLMが生成するテキストがモデル作成者の意図や価値観に沿っているかどうかを評価し、目的に適合させる手法のことです。以下では代表的なアライメント手法について紹介します。

安全機構を設置するための代表的なアライメント手法

Supervised Fine-Tuning (SFT)

SFTは、ラベルのついたデータを用いてLLMのパラメーターを調整する手法であり、LLMがユーザからの指示に従う能力を高めるために重要な手法のひとつです。近年では、学習フェーズにおいて、できるだけ有害な内容を含まないデータで構成された、より質の高いデータセットの利用がLLMの安全性を高めるために重要であることが明らかになっています。つまり、洗練された安全性の高い内容を含んだデータセットを利用してファインチューニングを行うことで、より強力なLLMの安全機構が獲得できるということになります。研究論文[1]では、Preferenceデータと呼ばれる、安全性を高めるためのデータ（有害なプロンプトとそれに対して拒否する例）をインストラクションデータに3％混ぜることでLLMの安全性が向上することが明らかにされています。しかし、有害なプロンプトに類似する通常のプロンプトに対しても過度に安全機構が働き、モデルの有用性が低下することもわかっています。これらの結果から、LLMの安全性と有用性にはトレードオフの関係にあるということが明らかにされました。そのほかにも、研究論文[2]ではLLMを利用して敵対的プロンプトから安全性を高めるためのデータセットを作成し、それを使いファインチューニングを行うことで、安全性を高めるフレームワークが提案されています。

SFTは、LLMの安全性を高めるための効果的な方法です。その学習にかかる時間とコストは比較的多くはありません。しかし、SFTにはいくつかの欠点があります。一つ目は、破壊的忘却です。これは、安全機構設置のためのパラメーターの更新により、モデルが以前の知識を忘れてしまう現象であり、一般的なタスクにおける性能の低下を引き起こします。二つ目は、SFTの実行コストが中程度であるにもかかわらず、高品質なPreferenceデータの収集には労力がかかることです。三つ目は、データセットに特定の文字列（トリガー）の含まれた悪性データが混入していた場合、トリガーが入力に含まれた場合のみ安全機構が外れ、有害な応答を返すバックドア攻撃が行われる危険性があることです。したがって、SFT以外の他の手法が必要とされています。

Reinforcement Learning from Human Feedback (RLHF)

RLHFは、人間のフィードバックを利用してモデルを強化学習する手法です。RLHFは、アライメントのために広く利用されており、有害な出力を生成しないLLMを作成可能です。RLHFのおおまかな手順は以下の通りです。

初期モデルの学習

大規模データセットを用いて、基本的な言語モデルを教師あり学習などの手法で学習します。

フィードバック収集

人間の評価者がモデルの出力を評価し、フィードバックを提供します。例えば、モデルの生成したテキストの質や妥当性を評価します。

報酬モデルの学習

人間のフィードバックを活用して、報酬モデル（人間のフィードバックを機械で学習可能な報酬に変換するモデル）を学習します。

強化学習によるモデルの改善

報酬モデルを利用して、強化学習アルゴリズムを通じて初期モデルを改善します。このフェーズでは、モデルが報酬を最大化するようにパラメーターを調整します。

評価と反復

改善されたモデルの性能を評価し、必要に応じてフィードバック収集からのプロセスを繰り返します。

GPT-4やLlama、Claudeといった多くのLLMにおいて、上記のプロセスを通して人間の価値観や期待に沿った出力を生成する能力の向上が実証されています。

RLHFには、人間により作成された良質なPreferenceデータが必要となります。そのため、近年ではPreferenceデータの観点からさまざまな研究が行われています。研究論文[3]では、LLMを訓練しながらPreferenceデータを収集するオンラインRLHFを提案されています。このオンラインRLHFは、Claudeに導入して行われた実験の結果、有効であるということが明らかになっています。研究論文[4]では、データの隠れた背景情報（各アノテーターの判断基準の違いなど）がPreferenceデータの品質を損なう可能性があることが明らかになっています。そのような隠れた背景情報を考慮するために、研究論文[4]では、Distributional Preference Learning (DPL) と呼ばれる技術と組み合わせたRLHFを提案し、ファインチューニングされたLLMの安全機構が解除されるリスクを大幅に減少させています。

LLMの安全性を向上させるための最も広く使用されているRLHFの利点は次の点が挙げられます。

LLMの有害な出力生成の減少を最小限の性能の劣化で実現できること。
Preferenceデータの収集は、高品質な安全性インストラクションデータに比べて、より簡単かつ低コストであること。

しかし、以下の様な欠点もあります。

RLHFの学習プロセスは報酬モデルがスコアを算出するために実際のLLMによる出力の生成を必要とするため、時間がかかり学習が非常に遅くなること。
SFTと同様に、バックドア攻撃により高度な安全機構でも容易に回避される可能性があること。

Direct Preference Optimization (DPO)

RLHFは複雑で不安定であるため、最近の研究[5]ではDPOが提案されています。従来のRLHFを利用した手法では、強化学習における報酬モデルをPreferenceデータで学習することが必要でした。一方で、DPOはKL（Kullback–Leibler）ダイバージェンスにもとづく制約を加えた目的関数を用いて、Preferenceデータに対して直接最適化を行います。近年では、より安定して軽量な方法として、LLMの安全機構をDPOで強化することがより一般的になりつつあり、新しい方向性の研究分野として注目されています。

課題と今後の方向性

課題

バックドア攻撃への脆弱性

アライメントや安全機構に関する多くの研究でSFTやRLHFが用いられている一方で、それらを悪用することで、LLMに対してバックドア攻撃が可能であることが研究論文[6]などよって示されています。これらに対する対策も今後研究が必要であると考えられます。

プロンプトインジェクションよる安全機構の解除

安全機構は、プロンプトインジェクションにより解除されてしまうことが明らかになっています。従来のサイバー攻撃の対策で用いられているような入力のフィルタリングなどにより、プロンプトインジェクションを防ぐことは可能ですが、そのフィルタに検知されないように工夫された適応攻撃には回避されてしまうため、その様な攻撃への対策を別途考案することが重要です。

今後の方向性

LLMの安全機構に関する今後の研究の方向性は以下が挙げられます。

安全機構を解除するようなバックドア攻撃やプロンプトインジェクションなどの攻撃への対策に関する研究
Preferenceデータの分布外の内容に対しても安全機構を設定する手法に関する研究
より大規模な最先端のLLMにスケーリングした場合の効果などに関する研究
アライメント以外の方法で安全機構を設定する手法に関する研究

まとめ

本記事では、LLMの安全機構に関する技術について解説しました。LLMを使う際に必須とも言える安全機構の設置に関する研究は現在も盛んに行われており、引き続き注目すべき研究分野のひとつと言えます。一方で安全機構が解除される場合やアライメントが悪用される危険性もあるため、それらに対する対策も重要な研究の方向性になると考えられます。

参考文献

[1] Bianchi, Federico, et al. “Safety-tuned llamas: Lessons from improving the safety of large language models that follow instructions.” In International Conference on Learning Representations (ICLR), 2024.

[2] Deng, Boyi, et al. “Attack Prompt Generation for Red Teaming and Defending Large Language Models.” The 2023 Conference on Empirical Methods in Natural Language Processing.

[3] Bai, Yuntao, et al. “Training a helpful and harmless assistant with reinforcement learning from human feedback.” arXiv preprint arXiv:2204.05862 (2022).

[4] Siththaranjan, Anand, Cassidy Laidlaw, and Dylan Hadfield-Menell. “Distributional preference learning: Understanding and accounting for hidden context in RLHF.” arXiv preprint arXiv:2312.08358 (2023).

[5] Rafailov, Rafael, et al. “Direct preference optimization: Your language model is secretly a reward model.” Advances in Neural Information Processing Systems 36 (2024).

[6] Rando, Javier, and Florian Tramèr. “Universal Jailbreak Backdoors from Poisoned Human Feedback.” ICLR 2024. 2024.