研究チームが開発したアルゴリズムは、ネットワークと復元したい画像から学習する「Deep Image Prior」と呼ばれる手法から発想を得たようだ。今回の研究では、ターゲットとなるのは隠れたオブジェクトを写した動画。これに対して2つのニューラルネットワークを同時にトレーニングしている。
・2つのネットワークを組み合わせ
カメラに映っていないエリアのオブジェクトの動きを予測するにあたって、研究チームはカメラに映ったエリアの光の濃淡と、その変化を手掛かりにしている。これらはオブジェクトの動きを間接的に写し出した鏡像ともいえるだろう。1つのネットワークでは、この光の濃淡から、光のかく乱パターンを予測。もう1つのネットワークでは、同じくカメラに映し出された映像と、かく乱パターンの予測から、隠れたオブジェクトの動きが読み取れる動画を生成する。
ネットワークを2つも使って遠回りしているようにも捉えられがちだが、かく乱パターンやオブジェクトの輪郭を予測する際に、ピクセルごとに無数のパターンが生成されてしまうとのこと。このため、2つを組み合わせることであいまいさを縮小しているようだ。
最終的に、オブジェクトの動きが読み取れるような、もっともらしい動画を生成すれば正解となる。
・路地での危険予測や災害救助に活用
研究チームが実験したところ、カメラに映っていないエリアでの動きが読み取れるような動画を再構築することに成功した。動画を観る限り、いまのところまだ不明瞭なものだが、隠れたオブジェクトの動きはちゃんと認識できる。今後研究チームはさらなる解像度の改善を目指すとのこと。
また、現在は処理に2時間を要するようで実用性は乏しいが、将来的に同技術は、路地などを運転する際の危険予測や、災害救助活動をスムーズで安全に行うための補助として役立つ可能性があるだろう。
参照元:Using computers to view the unseen/ MIT News