ワシントン大学の研究チームは、AIが視覚的な手がかりだけを使用して、ピアニストによる演奏を再現できるかどうかを試みている。
研究チームは機械学習を使用して、消音のピアノ演奏から音を生成する「Audeo」と呼ばれるシステムを作成した。
は映像内のイベントを解釈し演奏に変換
研究では、手元をトップダウンで映した映像から演奏を再現している。システムは映像内のイベントを解釈し、それを演奏に変換する。まず、それぞれのビデオフレームでどのキーが押されたかを検出し、次のステップでは、データがクリーンアップされ、キーがどれくらいの強さでどのくらいの時間押されたか、といった情報が追加される。システムのトレーニングにはピアニストのポール・バートンが、バッハやモーツァルトなど有名作曲家の楽曲を演奏するYouTube映像を使用。約17万2000ものビデオフレームが含まれていた。
次に、バートンが別の楽曲を演奏するYouTube映像、約1万9000フレームでテストを実施した。
将来的には仮想ピアノの開発も
SoundHoundのような楽曲識別アプリでテストしたところ、Audeoが生成したフレーズを全体の約86%再生した時点で識別できたという。ちなみにソースのYouTubeでは、楽曲を識別するのにフレーズの約96%の再生時間が必要だった。Audeoが楽曲の複写を生成し、これをシンセサイザーに渡して音を生成することになるが、研究では音が異なる2種類のシンセサイザーを使用している。Audeoと2種類のシンセサイザーにより生成された演奏は、UW Newsの記事内から視聴可能だ。
将来的に同技術は、カメラで手元を映して楽器なしで演奏できる仮想ピアノの開発なんかに活かされる可能性があるという。
参照元:‘Audeo’ teaches artificial intelligence to play the piano/ UW News