はじめに
「AI」は私たちの身の回りにも浸透してきています。例えば、手元のスマートフォンのカメラで何かを撮影しようとすると、AIが風景や被写体を自動的に判定し、明るさなどを調整してくれます。このように、AIは私たちの生活を豊かにしてくれる一方で、悪用されることで私たちに被害をもたらすことがあります。AIの悪用やその防御に関する技術はAIセキュリティの分野として分類されています。本記事では、そのAIセキュリティ分野で用いられる専門用語を紹介します。
AIセキュリティにおける用語
AIセキュリティ
AIセキュリティは、広義にはAIとセキュリティの両分野にまたがる技術分野を指します。この技術分野には、「セキュリティのためのAI (AI for Security)」と、「AIのためのセキュリティ(Security for AI)」が含まれます。
「セキュリティのためのAI」とは、従来のサイバーセキュリティに対するAI応用の分野を指します。例えば、コンピュータ上でマルウェアを検知するのにAIを応用する技術があります。一方、「AIのためのセキュリティ」とは、AIそのものに存在するリスクや弱点の分析や、その弱点を克服するための技術を指します。狭義のAIセキュリティは「AIのためのセキュリティ」技術を指します。
本Webサイトでは、狭義のAIセキュリティを対象として、AIのリスクや弱点、そしてそれを克服するための手段を体系的にまとめています。以下では、AIセキュリティの代表的なキーワードを紹介します。
敵対的サンプル
敵対的サンプルとは、AIに誤った出力を引き起こさせる入力のことです。人間にとっては自然に見える画像でも、わずかなノイズを加えることによってAIの出力が変化することが知られています。攻撃者がこのノイズのような細工を施すことで、AIの性能が低下し、利用者に不利益をもたらします。こうした攻撃を対策するため、敵対的学習などの対策技術が提案されています。
ポイズニング攻撃
ポイズニング攻撃では、攻撃者はAIの訓練データに対して少量の攻撃データを注入することで、AIに意図しない動きを引き起こさせます。例えば少量のデータを注入することで、特定の入力に対する正解率を著しく低下させたり誤った値を出力させたりするなどの攻撃があります。
バックドア攻撃
バックドアとは、攻撃者がAIを誤動作させるためにシステム内部に組み込んだ機能を指します。AIにおけるバックドア攻撃はデータポイズニング攻撃の一種で、特定の入力に対して特定の出力を引き起こすように細工されたデータを訓練データに注入します。例えば道路標識を識別するAIにバックドア攻撃が仕掛けられると、標識画像に対してステッカーなどにより特定の模様を加えることでAI誤った識別結果を出力させることが可能になります。
頑健性保証
頑健性保証とは、AIで使われるモデルがどの程度ノイズに強いかを、理論的に保証する技術のことです。敵対的サンプルを用いた攻撃が可能なように、ノイズを加えることでAIが誤った値を出力することがあります。頑健性保証の技術を用いることで、AIが誤りを引き起こさないノイズの大きさ(=すなわち頑健性)を定量的に決めることができます。頑健性が保証されることで、その範囲では意図しない誤った出力が引き起こされないものとして、AIを利用することができます。
プロンプトインジェクション
プロンプトインジェクションとは、大規模言語モデルなどの生成AIモデルを対象とした、開発者が意図しない内容をAIに出力させる攻撃です。特に、最近の大規模言語モデルには安全機構と呼ばれる有害な情報の出力を抑える機能が備えられていますが、プロンプトインジェクションを応用することで安全機構を回避して有害な出力を引き起こさせる攻撃手法が報告されています。
公平性
AIにおける公平性では、AIの出力に差別や偏見が無いかを評価し、それらを是正します。例えば、実世界から収集した訓練データは、一見実用的な情報に思われますが、私たちの実社会に潜む差別や偏見にもとづく「偏り」が(ときには意図せず)反映された情報であることがあります。こうした訓練データをそのままAIが学習すると、訓練データに含まれる「偏り」が推論にも反映されてしまいます。現代社会においては、AIにおける公平性の担保も重要な課題となります。
モデル抽出
モデル抽出とは、攻撃対象のAIモデルへの入力に対する出力を詳細に分析することで、そのモデルと同等の機能を持つモデルを作成することです。一般に、AIの学習には時間や計算資源などのコストがかかりますが、モデル抽出の攻撃では学習よりも低コストで同等の性能をもつAIを入手することが可能になります。
メンバーシップ推論
メンバーシップ推論とは、AIの訓練データを外部から推測する攻撃です。攻撃者があるデータをAIに入力し、それに対するAIの応答を入手します。この応答を詳細に分析することで、入力されたデータが訓練データに含まれるかどうかを推論します。
モデルインバージョン攻撃
モデルの入出力などの情報を分析することで、モデルの学習時に利用されたデータを復元する攻撃です。この攻撃が成功すると、例えば顔写真などの個人に関する情報が復元されプライバシーが侵害されるおそれがあります。
まとめ
AIが社会に浸透するにつれて、AIに関する技術的あるいは社会的な問題やリスクが指摘されています。AIセキュリティの分野では、そうした問題やリスク、それに対する対策の方法を研究しています。本サイトでの解説が、読者の皆様の理解の一助となれば幸いです。