ディープフェイク

はじめに

本記事は、ディープフェイクについて解説します。本記事を読むことで、ディープフェイクやその対策の最新の動向、今後の方向性について理解を深めることができます。

ディープフェイクとは?

AI技術の発展に伴い、動画や画像などのコンテンツに写った人物の顔や音声をよりリアルに変化させ、まるで本人が話しているように見える偽コンテンツを作成することが可能になっています。このようなリアルな編集技術はディープフェイクと呼ばれ、偽情報の拡散や社会へ悪影響を与えるために利用されることがあります。有名人や政治家が一切関わっていない偽コンテンツがSNS上で拡散されることは珍しくはなく、社会的な問題にも発展しかねない事例も散見されています。以下では、ディープフェイクの作成方法やその対策についての研究動向について紹介します。

ディープフェイクの基本AI技術

ディープフェイクを用いて偽コンテンツを作成するために利用されている代表的なAI技術は、主に以下の3つに分類されます。

オートエンコーダー

オートエンコーダー(Autoencoder)ベースの手法として、Variational Autoencoders (VAE) があります。VAEは、エンコーダーとデコーダーから構成され、入力データをエンコーダーにより埋め込み空間にマッピングし、デコーダーにより元のデータを再構築します。VAEは、ビデオフレームをエンコードおよびデコードして入力データを再構築するため、ビデオのインペインティングや圧縮のようなタスクに役立ちます。近年では、回帰型ニューラルネットワーク(Recurrent Neural Network、RNN)[1]やアテンション機構(Attention Mechanism)[2]と組み合わせたVAEが提案されています。VAEは生成が安定しており、より一貫した動画を作成可能であることが知られていますが、生成される画像の品質に課題があります。

敵対的ネットワーク

敵対的ネットワーク(Generative Adversarial Networks、GAN)は、生成器と識別器から構成されており、生成器は識別器を騙せるような偽コンテンツを作成するように学習し、識別器は本物と生成器が作成した偽コンテンツを識別できるように学習します。これを繰り返すことによって、偽コンテンツを生成し評価します。GANはVAEと比較して、訓練が難しいですが、高品質な画像を生成できます。GANには多くの派生系があり、近年のGANは、一貫性や見た目のリアルさを向上させることを目的としてさまざまな手法が提案されています。例えば、Temporal GAN[3]やVideo GAN[4]には、なめらかなフレームの変化や複雑な動きのパターンを捉えるための技術が導入されています。

拡散モデル

拡散モデル(Diffusion Model)は、生成されたビデオフレームの品質を段階的に向上させるために、確率的なフォワーディングおよびバックワードプロセスを利用し、ディープフェイクによる動画や画像の一貫性とリアルさを確保します。拡散モデルは、時間に伴うビデオデータの変換をモデル化することによって、高品質でリアルな動画を作成するために利用されます。拡散モデルは2つのプロセスで動作します。

  1. 拡散:モデルは既存のビデオから開始し、各フレームに徐々にノイズを追加していきます。これはビデオの構造や時間的な一貫性を徐々に破壊するプロセスで、ビデオフレームがほとんどランダムなノイズと見分けがつかなくなるまで複数のステップが繰り返されます。
  2. ノイズ除去:ノイズ除去は、ニューラルネットワークを学習してビデオフレームのノイズをステップごとに取り除くプロセスであり、拡散プロセスの逆の操作を行います。ネットワークは、追加されたノイズの予測と除去をする方法を学び、元のビデオフレームを徐々に再構築します。このノイズ除去プロセスは、フレーム間の時間的な一貫性を維持し、滑らかな動画の遷移と一貫した動きを確保するために行われます。

近年、ビデオ生成のための拡散モデルは、多くの手法が提案されており、大きな進歩を遂げています。テキストから画像を生成するモデルであるStable Diffusion[5]は、時間的な一貫性と効率性を確保することで、ビデオ用に適応された高品質な画像生成に非常に効果的な手法です。また、動画内の時間動態を処理するために、Denoising Diffusion Probabilistic Models[6]では、基礎的な拡散モデルを拡張しています。これらのタイプのモデルは、一連のノイズ除去ステップを適用して、ガウスノイズから段階的にビデオを再構築します。条件付き拡散モデルは、テキスト、オーディオ、または初期フレームのような追加の入力を処理し、コンテキストに関連するビデオを生成する場合に効果的と言われています[7]

最近では、トランスフォーマー(Transformer)を用いた拡散モデルがAIによる動画生成のために非常に効果的とされています。この種のモデルは、長期的な時間依存性を捉えることができるため、全体を通して一貫した物語の流れを確保することができます。特に、トランスフォーマーのアーキテクチャ内のセルフアテンション機構を用いて、ビデオシーケンス全体にわたる空間情報と時間情報の両方を処理し、統合することが非常に効果的であるとされています。

ディープフェイクの検知

研究論文[8]によると、ディープフェイクの生成に関する研究論文は2017年以降増加しており、2023年までに約1000件近くの論文が発表されています。一方で、ディープフェイクの検知に関する研究論文もそれを上回る勢いで増加しており、2023年の時点で約1700件にまで増加しています。生成AIの登場により、よりリアルなコンテンツ生成が可能となるため、今後も検知手法に関する研究論文の数は増加し続けると予想されています。以下では代表的な検知手法を紹介します。

畳み込みニューラルネットワークにもとづいた手法

代表的なディープフェイクの検知手法として、畳み込みニューラルネットワーク(Convolutional Neural Network、 CNN)を利用した手法が多く提案されています。例えば、ある研究論文[9]では、画像が改変されているかに関する分析を用いて抽出した特徴をCNNの一種であるResidual Network(ResNet)と呼ばれるモデルに入力することで、検知を行う手法を提案しています。しかし、CNNベースの手法ではマックスプーリング層が原因で空間的な特徴を捉えられないという問題がありました。そこで、研究論文[10]では画像の質を高めるための前処理を施すことによって、その課題を解決する手法が提案されています。

時系列の特徴にもとづいた手法

また、ディープフェイクにより作成されたコンテンツにおける時間的な不整合を学習することで検知を行う手法も提案されています。ある研究論文[11]では、顔と背景のビデオ画像のフレームのシーケンスから抽出されるノイズにもとづいた検知手法を提案しています。この手法では、Recursive Information Distillation Network と呼ばれるネットワーク構築を用いて、顔と背景のノイズの相互関係による特徴から検知を行います。

アイデンティティの情報にもとづいた手法

コンテンツからユニークな顔の特徴を局所的または全体的な空間から取得し、検知を行う手法も提案されています。ある研究論文[12]では、顔の入れ替えの処理により、偽の顔の特徴は対象の顔の暗黙的なアイデンティティに類似するという傾向を利用しています。この手法は、Explicit Identity Contrast loss とImplicit Identity Exploration lossと呼ばれる損失関数を用いて、特徴の埋め込み表現を識別する能力を獲得することで検知を行います。

グラフニューラルネットワークにもとづいた手法

顔の特徴的な部分が相互に関係している場合、グラフニューラルネットワーク(Graph Neural Networks、GNN)にもとづいた手法が有効であるとされています。ある研究論文[13]では、GNNとResNetを組み合わせて検知を行う手法を提案しています。この手法では、入力画像を分割し、K-Nearest Neighborによって作成したグラフをGNNによる検知に利用します。

トランスフォーマーにもとづいた手法

近年では、CNNベースの手法における画像全体の特徴を学習する能力が不十分であることが指摘されており、研究論文[14]ではトランスフォーマーを画像認識タスクのために適用したVision Transformer (ViT) を利用する手法が提案されています。この手法では、マルチヘッドセルフアテンション層を使って画像のグローバルな情報を取得し、より検知性能を向上させました。その他にも、未知のデータに対して順応するために、事前学習したViTモデルの一部のパラメータのファインチューニングを行う手法が提案されており、研究論文[15]では学習するパラメータの数を減らすことが重要であると指摘されています。

課題と今後の方向性

近年、ディープフェイクにより生成されたコンテンツの質は非常に高いものになっていますが、いくつかの課題も存在します。例えば、画像生成のための学習データの不足、生成した画像の説明性、生成に必要な計算コストなどに関しては依然として課題があるとされています。また、非常に質の高いコンテンツを生成できるディープフェイク技術を悪用し、偽情報の拡散を行う事例が多くあり、そのような悪用に対する対策や倫理に関するガイドライン、法整備などが十分ではないことも課題となっています。これらを解決するための研究開発が、今後も有望な研究の方向性として考えられます。

まとめ

本記事では、ディープフェイクについて解説しました。拡散モデルなどの登場により、非常に質の高い画像や動画を生成することができるディープフェイク技術が開発されています。このような技術を活用することで、新しいコンテンツを次々と効率的に作成することができるでしょう。しかし、ディープフェイクの悪用による社会的な悪影響も懸念されており、法整備や偽コンテンツの検知技術も同時に開発を進めていく必要があります。

参考文献

[1] Jang, Myeongjun, Seungwan Seo, and Pilsung Kang. “Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning.” Information Sciences 490 (2019): 59-73.

[2] Shamsolmoali, Pourya, et al. “Vtae: Variational transformer autoencoder with manifolds learning.” IEEE Transactions on Image Processing (2023).

[3] Munoz, Andres, et al. “Temporal shift GAN for large scale video generation.” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021.

[4] Aldausari, Nuha, et al. “Video generative adversarial networks: a review.” ACM Computing Surveys (CSUR) 55.2 (2022): 1-25.

[5] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[6] Anderson, Julia, and Nosheen Akram. “Denoising Diffusion Probabilistic Models (DDPM) Dynamics: Unraveling Change Detection in Evolving Environments.” Innovative Computer Sciences Journal 10.1 (2024): 1-10.

[7] Tashiro, Yusuke, et al. “Csdi: Conditional score-based diffusion models for probabilistic time series imputation.” Advances in Neural Information Processing Systems 34 (2021): 24804-24816.

[8] Edwards, Peter, et al. “A Review of Deepfake Techniques: Architecture, Detection and Datasets.” IEEE Access (2024).

[9] Rafique, Rimsha, et al. “Deep fake detection and classification using error-level analysis and deep learning.” Scientific reports 13.1 (2023): 7422.

[10] Lu, Tianliang, Yuxuan Bao, and Lanting Li. “Deepfake Video Detection Based on Improved CapsNet and Temporal–Spatial Features.” Computers, Materials and Continua 75.1 (2023): 715-740.

[11] Wang, Tianyi, and Kam Pui Chow. “Noise based deepfake detection via multi-head relative-interaction.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 37. No. 12. 2023.

[12] Huang, Baojin, et al. “Implicit identity driven deepfake face swapping detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023.

[13] Khalid, Fatima, et al. “DFGNN: An interpretable and generalized graph neural network for deepfakes detection.” Expert Systems with Applications 222 (2023): 119843.

[14] Heo, Young-Jin, Woon-Ha Yeo, and Byung-Gyu Kim. “Deepfake detection algorithm based on improved vision transformer.” Applied Intelligence 53.7 (2023): 7512-7527.

[15] Usmani, Shaheen, Sunil Kumar, and Debanjan Sadhya. “Efficient deepfake detection using shallow vision transformer.” Multimedia Tools and Applications 83.4 (2024): 12339-12362.

タイトルとURLをコピーしました