そんな願望を可能にする技術を、マサチューセッツ工科大学(MIT)のコンピュータ科学・人工知能研究所(CSAIL)が開発中だ。深層学習を利用して楽器の音を聞き分け、そして各音のボリューム調整ができるAIシステム「PixelPlayer」だ。
・特定の音を抽出
たとえば、クラリネットとギターによる演奏のビデオを観るとしよう。クラリネットの音をはっきりと聴きたいというとき、PixelPlayerではクラリネットにカーソルを合わせてクリックすると、クラリネットの音が大きくなり、ギターの音が小さくなる。逆の場合もしかりだ。
ポイントは楽器の音をピクセルレベルで特定でき、そしてその音を抽出できることにある。
・ビデオ60時間分で学習
このシステムは自己教師あり深層学習を利用して開発。約60時間のビデオを“みせて”音や楽器について学習させたのだという。
その結果、現在のところ20種類の楽器を特定できるが、似ている楽器の判別などはまだ難しいとのこと。しかし使うほどに学習していくことを考えれば、対応する楽器の数は増え、また高度な聞き分けも可能になることが予想される。
いつか、音響操作ツールとしてこのテクノロジーがYouTubeなどに搭載される日がくるかも?
MIT