AIを不正に操る、バックドア攻撃

はじめに

本記事は、AIに対するポイズニング攻撃の一種であるバックドア攻撃について解説します。特に、あるデータに対してラベルの予測を行う分類モデルに対するバックドア攻撃について整理しています。本記事を読むことで、分類モデルに対するバックドア攻撃の概要およびその原理や対策について理解を深めることができます。

※このテーマに関するより専門的な技術解説についてご興味のある方は、「バックドア攻撃」をご覧ください。

バックドア攻撃とは?

近年、分類モデルは物体検知や顔認証などで応用されています。しかし、バックドア攻撃が分類モデル(以下、モデル)の安全な利活用を妨げる可能性があると報告されています。

バックドア攻撃は、攻撃者のみが意図したタイミングでモデルを不正に操作するための裏口(バックドア)を設置する攻撃です。バックドア攻撃では、攻撃者はモデルの学習フェーズと、ラベルの予測を行う推論フェーズの両方に関与します。具体的には、特定のパターン(トリガー)を含んだデータに対してのみ誤作動を引き起こすように学習フェーズでモデルにトリガーを学習させます。その後、推論フェーズでトリガーを学習したモデルにトリガーを含んだデータ(毒データ)を入力することで、モデルの予測を自身の意図したラベル(ターゲットラベル)に変更することが可能となります。また、トリガーを学習したモデルは、トリガーを含まない入力に対しては正常に分類を行うため、モデルの作成者や利用者はモデルが細工されていることに気づくことが困難である点が、通常のポイズニング攻撃とは異なります。例えば、自動運転の標識判定のようなタスクにおいて、AIカメラが特定のトリガーを認識した場合、標識を無視する可能性があり、AI技術の実運用においても非常に危険な攻撃です。

どのようにトリガーが学習される?

バックドア攻撃のためにモデルにトリガーを学習させる方法として、毒データを攻撃対象の学習データに混入させることが挙げられます。毒データが混入した学習データがモデルの学習に利用されることで、モデルがトリガーを学習し、バックドアが設置されます。このとき、混入させる毒データの数が攻撃成功率に大きな影響を与えます。一般的に混入させる毒データが多いほど、攻撃成功率は高くなる傾向にあります。混入する毒データのラベルを変更するか否かにより以下の2つに分けられます。

  • ラベルを変更する攻撃(Dirty-label attacks)

この攻撃では、トリガー付きの毒データに付与されているラベルは、ターゲットラベルに変更されています。これにより、トリガーがターゲットラベルの特徴として学習されやすくなり、トリガーとターゲットラベルが強く関連付けられ、高い攻撃成功率を実現できます。一方で、ラベルとデータの特徴に矛盾がある傾向があります。例えば、自動車が映った画像に対して、飛行機のラベルが付与されている場合、簡単に毒データと気づくことができます。

  • ラベルの整合性を保つ攻撃(Clean-label attacks)

この攻撃は、ラベルと元データの特徴の整合性を保ちながら、毒データを作成します。ラベルに頼らずに、トリガーとターゲットラベルを関連づける必要があるため、攻撃成功率はラベルを変更する攻撃と比較して低い傾向があります。しかし、ラベルとデータの特徴に整合性があるため、毒データの秘匿性が高いことが特徴です。

バックドア攻撃はどのように悪用される?

バックドア攻撃により、攻撃者は意図したタイミングで細工したモデルの分類を操作することができるため、様々な目的で悪用される可能性があります。以下では、代表的な分野における悪用について紹介します。

画像分類の操作

画像データにおけるバックドア攻撃の目的として、AIカメラを搭載した顔認証システムや自動運転車の動作を不正に操作することなどが挙げられます。例えば、顔認証で部屋への入退室管理をしているシステムを想定します。何らかの方法で眼鏡をかけている人が管理者として認証されるようにバックドアが仕掛けられていた場合、権限のない攻撃者が不正に部屋へ侵入することができてしまいます。このような視認性のあるトリガーが用いられる一方で、視認性のないトリガーを利用する場合も考えられます。このようなトリガーは、人の目で判別することは困難であるため、AIによる検知手法などを用いて検知する必要があります。しかし、場合によっては画像に不自然な模様が現れることがあるため、トリガーに気づくことができる場合もあります。

テキスト分類の操作

ここでは英語のテキストを想定した研究をもとに解説します。テキストデータにおけるバックドア攻撃の目的は、テキスト分類を行うモデルの予測を操作することです。例えば、レビューにもとづいた映画の分類や、メールの文面からスパムメールか否かを分類するようなタスクが想定されます。例えば、特定の単語の文字を改変することでトリガーを作成する攻撃や、視認できないユニコード文字をトリガーとして利用する攻撃があります。また、頻出の単語やキーワードとなりうる単語がトリガーとなる場合もあります。しかし、このようなトリガーが付与された文章の不自然さが高くなることがあるため、近年では、類義語に置き換えることでトリガーを構成する方法などが提案されており、トリガー付与の方法は多様化しています。

どのような対策が必要?

トリガーの検知

バックドア攻撃を防ぐための最も根本的な対策はトリガーの検知です。これは学習フェーズと推論フェーズのどちらにも適用できる対策です。学習フェーズでは、トリガーを含んだデータを検知することで、毒データの混入を防ぐことができます。推論フェーズでは、入力データに対して検知手法を適用し、トリガーを含んだデータを検知することで、利用しているモデルが攻撃対象であり、細工されている可能性があることを知ることができます。これは、被害の拡大を防ぐために重要です。

ポリシーや法律の策定

ある研究論文[1]によると、落書きや道路標識などを用いたバックドアを起動するような行動を禁止する法律が一部の国では制定され始めているようです。しかし、現状のポリシーや法律の整備は十分とは言えず、攻撃者はその法律の穴をついて攻撃を行うことが考えられます。今後、AIがさらに社会実装されていく中で、ポリシーや法律などの整備もより重要となるでしょう。

まとめ

本記事では、分類モデルに対するバックドア攻撃に関して解説しました。さまざまな分野でAIの利活用が期待されている一方で、バックドア攻撃が実世界の特定のシナリオで実現可能であることが多くの研究によって実証されています。その秘匿性や実現可能性から、今後もバックドア攻撃の脅威が広がる可能性があるため、分類モデルが応用された自動運転車などを利用する際には注意が必要です。

参考文献

[1] Zhang, Shaobo, et al. “Backdoor attacks and defenses targeting multi-domain ai models: A comprehensive review.” ACM Computing Surveys 57.4 (2024): 1-35.

タイトルとURLをコピーしました