有害な応答

はじめに

本記事は、ChatGPTなどのような生成AIサービスに利用されている大規模言語モデル(LLM)を利用する際に出力される可能性のある有害な応答について解説します。本記事を読むことで、LLMからの有害な応答の種類や想定される影響、被害について知ることができます。

LLMについて

LLMとは?

LLMとはLarge Language Modelの略で、大量のテキストデータを用いて訓練された人工知能(AI)モデルであり、人間の言語を理解し生成する能力を持ちます。LLMは、数十億〜数百億のパラメータと呼ばれる調整可能な重みを持ち、一般的に、パラメータ数が多いほど流暢な文章を生成する能力を有することが知られています。LLMは入力されたテキスト(プロンプト)を基に次に来るべき単語やフレーズを予測し、それを繰り返すことで文章を生成します。人間も直前までの内容に合わせて次の言葉を瞬時に選ぶことで文章を執筆したり、会話をしているため、この仕組みは直感的に理解しやすいと思います。

LLMには膨大なテキストデータから学習された知識が含まれており、有用な情報だけでなく、有害な情報に関する内容も学習されています。一般的に、有害な応答はアライメントと呼ばれる技術により制限されていますが、プロンプトインジェクションのような攻撃が行われた場合には、出力される可能性があります。以下では、有害な応答の種類やその影響について解説します。

有害な応答の種類

法や倫理に反する内容

LLMが学習している内容には法や倫理に反するものがあります。例えば、マルウェアや危険物の生成方法を聞くことで、専門的な知識がなくともそれらを作成可能な方法を出力する可能性があります。このような応答はサイバー攻撃やテロ行為を助長するため、注意が必要な内容です。

差別的発言

LLMは差別的な発言も学習しています。特定の人種、性別、宗教などに対する差別的な発言はグループや個人に精神的苦痛を与える可能性があります。特に人種や宗教に関する差別的発言は社会にも大きな悪影響を及ぼす可能性が高く、LLMを企業のサービスで利用する場合には注意が必要です。このような差別的な発言が出力される原因のひとつとしては、学習データに特定の思想や偏見が含まれていることが挙げられます。このような問題は現状では解決することが難しいため、そういったリスクがあることを理解してLLMを利用することが重要です。

成人向けコンテンツ

LLMは大人だけでなく13歳から18歳未満の未成年も利用することができます(2025年2月6日現在)。そのため、LLMを利用する未成年の保護者は、LLMから成人向けコンテンツが出力される可能性があることを理解することが重要です。通常、LLMは成人向けコンテンツに関する質問に回答しませんが、他の有害な応答と同様に、プロンプトインジェクションにより回答が生成される可能性があります。

暴力的な内容

LLMは暴力的な内容に関しても学習しています。暴力的な行為を肯定するような回答や、他人を傷つける方法などについての回答が生成される可能性があります。このような内容は暴力事件を助長する可能性があり、個人だけでなく、社会に対する悪影響を及ぼす危険性があることが考えられます。

ハルシネーション

LLMから得られる応答は非常に流暢なため、一見すると入力した質問に対して常に正確な情報が提供されているように見えます。しかし、その応答は事実に基づかない情報や現実には存在しない情報である可能性があります。これは一般的にハルシネーションと呼ばれており、場合によっては重大な被害に遭う可能性があるため、LLMを利用する際の有害な応答の一つであると言えます。ハルシネーションが起こる原因は、LLMが学習データに含まれない情報に関する回答を正確に行うことができないためです。日々新しいデータを学習データに追加することは可能ですが、その都度、再学習やファインチューニングを行う必要があり現実的ではありません。そこで、Retrieval-augmented generation(RAG)と呼ばれるLLMに情報検索機能を与える技術が開発されました。RAGは外部データに対して入力プロンプトに関連した情報の検索を行い、その情報を入力プロンプトに追加してLLMに回答を行わせることで、回答の品質を高めることができます。これによりハルシネーションは軽減されますが、このRAGを悪用し、誤情報を拡散する攻撃手法[1]が提案されています。この攻撃はわずか5個の毒データを外部データに混入させることで、特定の質問に対して誤った回答を97%の成功率で生成させることが可能であると明らかになっています。そのため、RAGを利用している場合においても、ハルシネーションには注意が必要であり、誤情報を拡散してしまうことがあることに留意する必要があります。

有害な応答による影響・被害

有害な応答が出力されることで、個人だけでなく社会にとってもさまざまな影響や被害をもたらすことが考えられます。表1に有害な応答と想定される影響・被害の例を示しています。

表 1 有害な応答と想定される影響・被害の例

区分内容想定される影響・被害
差別的発言特定の人種、性別、宗教などに対する差別的な発言を提供特定のグループや個人に精神的苦痛を与えるうえ、社会的偏見を助長し、差別的な行動を促進する可能性
成人向けコンテンツ未成年にとって不適切な性的内容を出力性に関する正しい理解の阻害や誤った理解を助長する可能性
ハルシネーション誤った事実や根拠のない情報を提供誤情報が拡散されることで、個人の行動や組織の意思決定に悪影響を与え、社会的混乱を引き起こす可能性
法や倫理に反する内容違法行為などに関する情報を出力違法行為が引き起こされ、個人または社会全体に悪影響を与える可能性
暴力的な内容暴力的な行動を促す、または肯定する発言を提供暴力行為を煽ることで、実際の暴力事件やテロ行為を引き起こす可能性

有害な応答への対策

有害な応答を防ぐための代表的な対策は、アライメントによる安全機構の設置です。アライメントとは、LLMが生成するテキストがモデル作成者の意図や価値観に沿っているかどうかを評価し、目的に適合させる手法のことです。これにより、LLMに有害な応答や学習した個人情報などの出力を誘発するような質問が入力された場合でも、回答を断るようにさせることができます。しかし、このアライメントによる安全機構も完璧な対策ではなく、プロンプトインジェクションのような攻撃により安全機構が解除され、有害な応答が出力される可能性があります。また、プロンプトの有害度を検知する方法も開発されています。最新の研究[2]では、高い精度で有害な内容を検知できることが示されています。

一方で、上記の対策は有害な質問に関する制限であるため、ハルシネーションの対策としては機能しません。ハルシネーションの対策としてはRAGが挙げられ、一定の効果はありますが、外部データにないような内容に関する質問が入力された場合は、事実の確認も非常に難しいため、完全な対策にはならない場合があります。そのため、引き続き対策に関する研究が進められていくと思われます。

まとめ

LLMは非常に多くの知識を有しており、我々の私生活や仕事などのさまざまな場面で広く利活用されてきています。LLMは我々の言語を理解し、質問にも流暢に答えるため、つい万能だと思いがちですが、LLMの応答は必ずしも正しいとは限らず、時には有害な応答を出力する可能性があると理解することが重要です。特に教育などの現場でLLMを利用する際は、こういったリスクがあることを説明し、正しく利用できるようにすることが大切です。

参考文献

[1] Zou, Wei, et al. “Poisonedrag: Knowledge poisoning attacks to retrieval-augmented generation of large language models.” USENIX Security, 2025.

[2] Zheng, Aaron, Mansi Rana, and Andreas Stolcke. “Lightweight Safety Guardrails Using Fine-tuned BERT Embeddings.” Proceedings of the 31st International Conference on Computational Linguistics: Industry Track. 2025.

タイトルとURLをコピーしました