十分な量のデータセットを用意しなくてもよいばかりか、タグ付けが不適切だとおかしな学習をしてしまう問題についても、この方法では解決済みだ。
・子どもの言語獲得プロセスを忠実に模倣
言語を学習する際は、文章構造と単語の意味を理解する必要があるが、この役割を構文解析プログラム(パーザ)が担っている。
MITの研究チームが発表した論文には、子どもの言語獲得プロセスを忠実に模倣することで、パーザの能力を大幅に向上させる技術について説明されている。
パーザは字幕付きの映像を観て、ことばとオブジェクト/アクションとを関連付ける。そして、新しい文章が与えられると、学んだ言語の構造から文の意味を正確に予測するようになる。
また、より翻訳の精度を向上させるために、別の映像と組み合わせて学習させることもできるようだ。
・自然な会話から精度を向上
研究チームは、約400の映像データセットを使用。映像中にモノを入れたり抜いたり、人間に特定のアクションをしてもらったりといった編集をおこない、字幕をつけた。パーザは字幕を数学的な表現(記号の連結)に変換。映像解析アルゴリズムにより、各ビデオフレームを見て、モノやヒトが時間の経過とともにどのように変化するのかを追跡してパーザによる表現と照合する。
AIが観たモノや行動について、もっとも一致した表現が、単語の意味や文章構造にあてはめられて、これが蓄積されていく。そして最終的には、画像が指し示すものをたずねると、映像がなくても正解が出せるようになるという。
同技術は将来、ヒトとロボットとの自然な会話を改善するためにも利用できるようになるだろう。たとえば、パーザを実装したロボットは、ユーザーとの会話や観察を通じて話しことばの精度を向上させることができる。
子どもがどのようにして言語を獲得するかについても、いまだにわかっていないことが多いが、同技術がそれを解明する糸口となるかもしれない。
参照元:Machines that learn language more like kids do/MIT News