大変な労力を要する作業だが、これをAIが自動でやってくれる日がくるかもしれない。テキサス大学サンアントニオ校の研究者らは、映像に効果音をつける際の一連の作業を行うアルゴリズム「AutoFoley」を発表した。
オブジェクトのアクションを経時的に分析
AutoFoleyは、あらかじめ用意された効果音を映像に当て込んでくれる。フレームから画像の特徴を抽出してこれに合った効果音を決定するモデルと、フレーム内オブジェクトのアクションを経時的に分析するモデルが、音と映像の正確な同期を実現しているようだ。AutoFoleyの評価には、映像と効果音を含んだ大規模データセットを利用した。このデータセットは、よくあるアクションを映した短い映像のみを扱ったものだが、少なくともこの手の映像において、AutoFoleyはうまく機能したようだ。
1000本の映像クリップの効果音を生成
IEEE Spectrumの記事によると、評価ではAutoFoleyを使用して、雨、走る馬、時計……といった、1000本の映像クリップの効果音づけを実施したとのこと。またAutoFoleyは、焚火のような音と映像の完全な一致が必要ないものは得意だが、雷のようなランダムなアクションを伴うものは苦手なことが明らかになったようだ。
雨や走る馬、焚火の映像が鑑賞可能となっており、その目でAutoFoleyの実力を確かめてみてほしい。
参照元:AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos with Deep Learning/ IEEE Xplore