これまでAIベースの音質改善手法では、バックグラウンドノイズやリバーブの除去などに焦点があてられてきた。こうした手法では、クリアな音は作れるもののフラットになりすぎてしまい、リスニング体験として必ずしも優れているわけではなかったという。
研究者らの開発した手法「HiFi-GAN」は、録音素材をスタジオでの音質に近づけるものだ。
2つのネットワークを敵対させて音質改善
HiFi-GANでは、2つのネットワークを競い合わせることで録音素材を目的のものに近づける。ジェネレータと呼ばれる1つのネットワークは、クリーンアップされた音声を生成。スタジオ録音のものに似せようとする。ディスクリミネーターと呼ばれるもう1つのネットワークは音声を分析して、実際のスタジオ録音のものか、ジェネレーターによってクリーンアップされた音声かを判別しようとする。各ネットワークの能力が向上するにつれて、音声はスタジオ録音のものにより近づく。こうしてHiFi-GANを利用して生成した音声がどんなものかは、動画で確認することが可能だ。
従来の実験では、客観的な指標が人間の知覚と完全に相関していないとの課題があった。そのため、評価でのスコアが高くても、リスニング体験は悪くなる可能性がある。こうしたことから、HiFi-GANの評価には人間による主観的なものも取り入れた。
人間による主観的な評価で高いスコア
研究者らはHiFi-GANによって生成された音声を評価するにあたって、音質の客観的な尺度を使用。加えて、クラウドソーシングプラットフォーム「Amazon Mechanical Turk」を利用して、人間による主観的な評価を収集した。2万8000回におよぶのリスナー評価で、HiFi-GANはほかの5つの手法よりも高いスコアを獲得したという。
研究者らは別の研究にて、人間の耳では知覚できるがAIにはむつかしい高周波倍音の微妙な差異などを検出するメトリックを開発済みで、これをHiFi-GANのパフォーマンス向上に用いている。
研究者らは現在、リアルタイムの音声強調に向けてHiFi-GANを適応させているとのことで、Zoom会議やウェビナーなどで同手法が用いられる可能性があるだろう。
参照元:Say again? AI provides the latest word in clearer audio/ Princeton University