最近も精度が上がり続けているニューラル機械翻訳だが、弱点は希少言語の翻訳が難しいこと。
ニューラル機械翻訳では、学習の際に「I like to eat/私は食べるのが好き」のようなセンテンスのペアが必要だった。ところがウルドゥー語のような希少言語の翻訳では、センテンスのペアが少ないため、ニューラルネットワークはうまく学習できないのだ。
こうしたなか、Facebook AI Research(FAIR)が、多くの翻訳例がなくても、言語間の翻訳が可能なシステムを発表した。
・人間によるタグ付けなしでの学習
ニューラル機械翻訳を教師なし学習でおこなうアプローチは以前から研究が進められていて、Facebookに関しても、昨年ニューホーク大学らとの共同研究で劇的な精度の向上を発表している。今回、FAIRが発表した論文の内容は、人間によるタグ付けなしでの学習から希少言語の翻訳を可能にし、機械翻訳の精度を表す指標「BLEUポイント」が10ポイント以上改善されたようだ。
ちなみに、FAIRによるソースコードはすでに公開されていて、誰もが利用可能になっている。
・希少なデータから多くの単語を学習
同システムは、希少なデータから多くの単語・センテンスを学ぶために、以前に開発された3つの手法を利用している。単語を細切れにして与えることで、これに含まれる新しい単語を学ぶ手法「Byte-pair encodings」および、他のニューラルネットワークのトレーニングモデルから学ぶことで、いい感じの文章を生成する手法「Language model」、日本語から英語への翻訳を学習する際に、同時に英語から日本語への翻訳の合成データも生成するような「Back-translation」がそれだ。
上記3つの手法を、ニューラル機械翻訳と統計的機械翻訳(PBSMT)に組み込むことで、効率よい学習システムを構築した。
FAIRのシステムは、失われた言語で書かれた文書の翻訳や、スワヒリ語などの希少言語間をリアルタイム翻訳できるデバイスの開発に貢献するだろう。
参照元:Facebook's AI Just Set A New Record In Translation And Why It Matters/Forbs