サイトにアクセスすると、Webカメラ利用の許可が求められ、承認すると左画面に自分の姿が映し出される。とったポーズに合わせてリアルタイムで右画面の画像が変化していく。
Gif画像を作ることもできて、ついついいろんな動きを試してみたくなるだろう。
・17個のポイントを打って姿勢を推定
Webカメラに写った動きの検出には、コンピュータビジョン実装のためのオープンソースツール、PoseNetを使っている。
ポーズの特定は一筋縄にはいかず、ユーザーの環境によっては画像がぼやけていたり、白黒だったり、ものに遮られていたり、といったことが起こりうる。また、ユーザーが必ずしも手足を2本ずつ持っているとは限らず、車いすや松葉づえといった可能性もあるだろう。
このようにユーザーの状況が違っていても、正確なポーズを推定するために、画像に移った人間に対して、ヒジや左目といった、体のパーツにごとポイントを打っている。それぞれの信頼スコアを算出し、最も確からしいポーズを推定しているようだ。
・瞬時に画像を絞り込んでポーズにマッチした画像を取得
8万枚の画像データベースの中から、時間差なくポーズと一致する画像を取ってくるためにもさまざまな工夫がこらせれている。
まずは、関連性のないと思われる多くの画像がスキップされ、その後に絞り込まれた画像の中から、ポーズにマッチした画像を持ってきているとのこと。
一見お遊びとして捉えられる同プロジェクトに対しての、Googleの本気度に疑問を持つ方もいるかもしれない。しかし、この壮大な実験は検索技術の発展に役立つ可能性を秘めている。
将来的には、Webカメラの前でダンスするだけで、この動きに一致するミュージックビデオや映画が検索できるようになるかもしれない。
参照元:Move Mirror: An AI Experiment with Pose Estimation in the Browser using TensorFlow.js/Google Creative Lab(Medium)
Move Mirror