幅広い活用領域に期待!
同技術は、3DCGによる人体シミュレーションで作成した大量の学習データをPFNのスーパーコンピュータに学習させることで実現しました。専用カメラによる撮影や身体へのセンサー装着は不要で、スマートフォンなどで撮影した動画でも身体細部の動きを高精度にトラッキングし、全身を総合的に認識できる高度な3D姿勢推定モデルです。これにより、従来課題となっていた指先の向きや両手が重なる場面などでの誤検出を大幅に削減できるといいます。同技術は、これまでデジタル化が難しかった楽器演奏やスポーツの解析、細かな手作業の技術継承、遠隔診断・リハビリなどへの応用や、アバターアニメーション制作などの自動化が可能となるようです。
手話者のアバター動画を生成
この3D姿勢推定技術は、ソフトバンク株式会社と国立大学法人電気通信大学が共同開発する、手話と音声による双方向コミュニケーションシステム「SureTalk」に採用されています。「SureTalk」は、AIによって手話と音声をリアルタイムでテキストに変換し、画面を通して会話ができるWebツール。システムはコアエンジン部と手話データベース部で構成され、コアエンジン部には手話をテキスト化する「手話認識部」「自然言語処理部」と音声をテキスト化する「音声処理部」があります。これにより、手話者の動画から手話の意味を抽出し、時系列認識処理によって話者が表現している手話の単語順を認識したり、助詞の補完などで自然な日本語文に変換したり、音声をテキスト化したりできるというわけです。
「SureTalk」は、個人情報保護の観点から手話動画の匿名化を行います。そこで採用されたのがPFNの3D姿勢推定技術。映像上の手話者の手や指先の動きを正確に把握し、それに連動する3DCG(アバター動画)を自動生成することで、手話者のプライバシーを守ります。
株式会社Preferred Networks
(文・Higuchi)