オーストラリア国立大学の研究チームは、より人間の書いたものに近い画像キャプションが生成できるAIシステムを発表した。従来のキャプション生成AIは、画像に関する一般的な説明しか生成できなかった。
これに対して研究チームが構築したシステムでは、記事内の情報を含むキャプションを生成する。
記事を解析して画像の説明に活用
研究チームは、キャプションの生成に画像を説明するモデルに、顔の検出、モノの検出、ロケーションの検出、そして記事の解析を行うモデルを追加して説明の精度を高めようと試みた。
画像中に検出された顔などのオブジェクトと、記事中の単語を一致させるアテンションメカニズムを構築。記事の解析にはキャプション生成AIでこれまで利用されてきたLTSM(Long short-term memory)ベースのモデルではなく、Transformerベースのモデルを採用している。これにより、長い記事のなかから最適な単語に重みづけを行う。
また、トレーニングに用いる画像とキャプションのデータセットには、これまでのGoodNewsにNYTimes800kを追加し、ボキャブラリーサイズを拡大した。
将来的にはWebやソーシャルメディアもソースに
検証の結果、研究チームによるキャプション生成システム「Transform and Tell」は従来のものよりも高い評価スコアを得たようだ。
例えば、同画像について、これまでの最先端システムが「保育園の先生が彼の教室で虫を見せている(A nursery school teacher showing a bug to his class.)」とのキャプションを生成したのに対し、研究チームによるシステムでは「東京の保育士。政府は、より多くの女性が労働力として参画するのを促している。また政府は、母親が職場復帰するのに十分な子どものケアの考案しようとしている。(A day care worker in Tokyo. The government is trying to bring more women into the work force, and the government is trying to come up with enough child care for mothers to go back to work.)」とのキャプションを生成している。
将来的には、記事だけでなく、Webやソーシャルメディア、医療文献からのコンテンツもソースにしたキャプション生成が可能になるとのこと。
参照元:Transform and Tell: Entity-Aware News Image Captioning/ arXiv