AIが一から要約文を生成
「ELYZA DIGEST」は、日本語における高精度の生成型要約モデルを用い、テキストデータを3行に要約できるAIです。AIによる要約には生成型・抽出型・圧縮型・テンプレート型と大きく4種類あり、生成型である「ELYZA DIGEST」は、読み込んだテキストをもとにAIが一から要約文を生成します。書籍・小説・ニュース記事のような誤字脱字の少ない綺麗な文章はもちろん、議事録・対話テキストのような乱雑な文章・文字列であっても対応可能。要約したい文章は直接入力のほか、URLを張り付けることでも読み込むことができます。
デモサイトの利用状況とユーザー評価
集計の結果、8月26日のデモサイト公開後5日間で訪問者数が13万人を突破。デモサイトPV数は404,718に上り、要約数は145,309回となりました。要約精度のユーザー判定は、投票総数17,611に対して成功が8,518、失敗は9,093という結果に。これについて同社代表の曽根岡氏は「今回は、デモンストレーション用の小さなモデルを利用している関係上、自然な要約ができなかったケースがありました。一方、弊社が企業向けに提供している大きなサイズのモデルであれば、より質のよい要約を出力できるケースも散見されます」とコメントしています。
今後は、モデルを改善していくこと、特定の業務に特化させていくことで、実用レベルに押し上げるとのことです。
日本語特化AIエンジン「ELYZA Brain」
近年、音声認識や画像認識といった技術が進化し、対話の音声データや紙のスキャン画像をテキストデータに変換することができるようになりました。しかし、そのテキストデータを「言葉として理解し活用するための技術(自然言語処理=NLP)」の精度は高くなく、実用化が一部の領域に限定されていたといいます。そんな中、2018年秋にNLP分野でブレイクスルーが起き、Googleが大規模言語モデル「BERT」を発表。2019年には「人間を超える」精度を達成し、英語圏ではNLPの最先端技術を実用化したサービスや事例が誕生しています。一方国内では、日本語の言語特性に依存する技術的な難易度の高さや公開されているデータ量が少ないという問題から、NLPの最先端技術の実用化が遅れていました。
そこで同社は、2020年に「BERT」以降の大規模言語モデルと独自の大規模データセットを活用した日本語特化AIエンジン「ELYZA Brain」を開発。「ELYZA Brain」の改良を行いつつ、日常・ビジネスの場でよく発生する「要約」に特化した「ELYZA DIGEST」を開発し、公開するに至っています。
PR TIMES
(文・Higuchi)