しかし、2兆トークンものテキストで学習されたMeta Platforms, Inc.(以下、Meta)のLLM「Llama 2」などと比較すると、まだまだ小規模なものに留まっているのが現状です。
その背景には、計算リソースの不足や、日本語で利用できるテキストデータの少なさなどがあります。また、一からLLMの事前学習を行うには膨大なコストがかかるため、研究を行えているのは一部の大企業や研究機関のみとなっています。
そんななか東京大学松尾研究室発・AIスタートアップの株式会社ELYZA(以下、ELYZA)は、「Llama 2」に対し日本語による追加事前学習を行い、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を開発し、一般公開しました。
英語ベースの大規模言語モデル「Llama 2」
「Llama 2」は、2023年7月18日にMetaが公開した英語ベースの大規模言語モデル。先に公開された「LLaMA」が研究用途に限定されていたのに対し、「Llama 2」は商用利用が可能です。公開されているモデルとしては非常に性能が高いことから、OpenAIの「GPT-4」やGoogleの「PaLM」などのクローズドなLLMと競合する形で、英語圏ではすでにオープンモデルのデファクトスタンダードとなりつつあります。
サイズは70億、130億、700億の3種類。いずれのモデルも教師ありファインチューニング(Supervised Fine-Tuning、SFT)および、人間からのフィードバックに基づいた強化学習(Reinforcement Learning from Human Feedback、RLHF)を施したchatモデルを同時に公開しています。
商用利用可能な70億パラメータの日本語LLM
今回一般公開された「ELYZA-japanese-Llama-2-7b」は、「Llama 2」の最も小さいサイズである70億パラメータのモデルをベースに、約180億トークンの日本語テキストで追加事前学習を行ったモデルです。ELYZA独自の事後学習を施した「ELYZA-japanese-Llama-2-7b-instruct」や、日本語の語彙追加により高速化を行った「ELYZA-japanese-Llama-2-7b-fast-instruct」など、複数のバリエーションを用意しています。
同モデルは学習にOSCARやWikipediaなどに含まれる日本語テキストデータを活用。LLAMA 2 Community Licenseというライセンスに準拠しており、Acceptable Use Policyに従う限りは、研究および商業目的での利用が可能です。
ELYZA独自作成の性能評価の結果、1750億パラメータを有する「GPT-3.5(text-davinci-003)」に匹敵するスコアが算出されており、日本語の公開モデルのなかでは高い性能を誇っています。
実際にデモを使用してみた
実際に「ELYZA-japanese-Llama-2-7b」(ELYZA-japanese-Llama-2-7b-instruct)のデモを利用してみた様子を紹介します。「会社でAIを使うメリットとデメリットを教えて」と入力したところ、数秒後にAIの導入による会社でのメリットとデメリットに関する情報が表示されました。
続いて「AIの可能性について教えて」とやや抽象的な質問したところ、AIの可能性に10項目の回答が返ってきました。不自然な表現や重複箇所がなく、自然な文章が生成されていることがうかがえます。
今回の「ELYZA-japanese-Llama-2-7b」は「Llama 2」の最も小さいサイズである70億パラメータのモデルをベースに開発したものですが、ELYZAはすでに130億、700億パラメータのモデルの開発にも着手しているとのことです。今後、よりパワーアップしたモデルの公開に期待したいところです。
参考元:https://prtimes.jp/main/html/rd/p/000000034.000047565.html
「ELYZA-japanese-Llama-2-7b-instruct」デモ:https://huggingface.co/spaces/elyza/ELYZA-japanese-Llama-2-7b-instruct-demo
「ELYZA-japanese-Llama-2-7b-fast-instruct」デモ:https://huggingface.co/spaces/elyza/ELYZA-japanese-Llama-2-7b-fast-instruct-demo
(文・Haruka Isobe)