発話を一言一句聞き取って文字起こしするのは意外にむつかしく、エラーがつきものだ。人間でもむつかしい音声認識はAIにとってはさらに困難。GoogleやAppleなんかの音声認識AIの精度は向上しているが、多少のエラーは大目に見ながら音声入力しているだろう。
こうしたなか、カールスルーエ工科大学(KIT)の研究者らは、人間よりも優れたパフォーマンスを発揮する音声認識AIを開発している。
「講義ライブ翻訳機」に実装
KITの研究者とKIT発のスタートアップ「KITES」が開発したシステムは、人間よりもうまく音声認識し、ほかのシステムよりも遅延が少ないという。研究者は以前、大学の講義をドイツ語や英語から、留学生の母国語にライブ翻訳するシステムを開発。この「講義ライブ翻訳機」は、2012年からKITで使用されているようだ。
音声認識は、このシステムの核になるもの。認識精度を高め遅延を短縮してきた。現在このシステムはエラー率が5.0%に達し、人間のエラー率約5.5%を上回っている。
遅延を1秒に短縮
講義のライブ翻訳では、学生が講義についていくために翻訳速度も重要になる。同システムでは遅延を1秒に短縮することに成功。これは、高精度の音声認識システムのなかで最小だ。なお、エラー率と遅延はNISTが定義し、AI研究で国際的に利用される「switchboard-benchmark」を使用して計測したとのこと。
音声認識はライブ翻訳のみならず、音声入力や対話AIなどにも利用される基幹技術。高精度で低遅延の同システムはさまざまな場面で応用され、パフォーマンス向上に貢献してくれそうだ。
参照元:AI Outperforms Humans in Speech Recognition/ KIT