海外・国内のベンチャー系ニュースサイト | TECHABLE

TECHABLE

Tech ドイツの大学が人間を超える音声認識AIを開発! エラー率5.0%を達成

Tech

ドイツの大学が人間を超える音声認識AIを開発! エラー率5.0%を達成

SHARE ON

このエントリーをはてなブックマークに追加

Gerd AltmannによるPixabayからの画像

発話には、どもりや間、「う~ん」といったためらいが入る。単語の発音が不明瞭なこともよくあり、私たちをこうしたものを無意識に補正しながら音声認識している。

発話を一言一句聞き取って文字起こしするのは意外にむつかしく、エラーがつきものだ。人間でもむつかしい音声認識はAIにとってはさらに困難。GoogleやAppleなんかの音声認識AIの精度は向上しているが、多少のエラーは大目に見ながら音声入力しているだろう。

こうしたなか、カールスルーエ工科大学(KIT)の研究者らは、人間よりも優れたパフォーマンスを発揮する音声認識AIを開発している。

「講義ライブ翻訳機」に実装

KITの研究者とKIT発のスタートアップ「KITES」が開発したシステムは、人間よりもうまく音声認識し、ほかのシステムよりも遅延が少ないという。

研究者は以前、大学の講義をドイツ語や英語から、留学生の母国語にライブ翻訳するシステムを開発。この「講義ライブ翻訳機」は、2012年からKITで使用されているようだ。

音声認識は、このシステムの核になるもの。認識精度を高め遅延を短縮してきた。現在このシステムはエラー率が5.0%に達し、人間のエラー率約5.5%を上回っている。

遅延を1秒に短縮

講義のライブ翻訳では、学生が講義についていくために翻訳速度も重要になる。同システムでは遅延を1秒に短縮することに成功。これは、高精度の音声認識システムのなかで最小だ。

なお、エラー率と遅延はNISTが定義し、AI研究で国際的に利用される「switchboard-benchmark」を使用して計測したとのこと。

音声認識はライブ翻訳のみならず、音声入力や対話AIなどにも利用される基幹技術。高精度で低遅延の同システムはさまざまな場面で応用され、パフォーマンス向上に貢献してくれそうだ。

参照元:AI Outperforms Humans in Speech Recognition/ KIT
Techableの最新情報をお届けします。
前の記事
次の記事

#関連キーワード


WHAT'S NEW

最新情報