ところが同技術を悪用すれば、精巧なディープフェイク動画が作れてしまう。実際8月には、アメリカ副大統領ジョー・バイデンへのインタビュー内容が差し替えられるとの事案が発生している。
こうしたことから、研究者らは、ディープフェイク動画を高精度で見分ける検出ツールを開発した。
90%以上の精度でオバマのリップシンク動画を検出
ディープフェイク動画といえば、顔を入れ替える手法を思い浮かべるだろう。この手の動画には、AIが見分けやすい特徴が残るのに対し、唇の動きのみを差し替える手法は、検出がより困難とのこと。研究者らが開発した検出ツールでは、口の形と発音との矛盾を見つけてリップシンク技術が活用されたかどうかを見る。具体的には、完全に唇を閉じて発音する必要がある「B」「M」「P」に注目するようだ。
オバマ前大統領の動画でトレーニングし、ニューラルネットワークをテストしたところ、オバマ前大統領の関連したリップシンク動画の90%以上、それ以外では81%を検出したとのこと。
人をベースにした拡散抑止システムが必須
これで対策は万全かといえばどうやらそうでもないようだ。研究者らは、イタチごっこは繰り返されるとの見解を示している。今後もフェイク動画生成技術は精巧化していくに違いない。そうなると、偽情報や誤った情報の検出に有効なのは、非技術的な方法だという。例えば、前述バイデンに関するフェイク動画は、AIではなくインタビューを実施した当人が公にしたことで明らかになった。
当事者や視聴者のメディアリテラシーを高めると同時に、偽情報を故意に流すことでのペナルティを明確化することで、人をベースにした拡散抑止システムを構築していくしかなさそうだ。
参照元:Using AI to Detect Seemingly Perfect Deep-Fake Videos/ HAI Stanford University