とくに、ヒンディー語を公用語とするインドでは、英語が準公用語であるものの、英語を流暢に話せる人の割合は少ないという。
AIを活用できる人とできない人の格差が生まれるなか、インドの生成AIスタートアップ企業Sarvam AIはヒンディー語対応のオープンソース言語モデルを開発した。
GPT-3.5と同等の言語モデル「OpenHathi」
Sarvam AIは2023年に設立されたばかりの生成AIスタートアップ。「OpenHathi-Hi-0.1」と呼ばれる初のオープンソースのヒンディー語言語モデルをリリースしている。同モデルは、リーズナブルな価格でGPT-3.5のような性能をヒンディー言語でも取得できるように、計算とデータの制約の下で訓練されたもの。Llama2-7Bの上に構築されており、そのトークナイザーを48Kトークンに拡張するという。
OpenHathi-Hi-0.1の学習プロセスは2段階。最初のフェーズでは、ランダムに初期化されたヒンディー語埋め込みを調整する。2つ目のフェーズではバイリンガル言語モデリング。ここでは、トークン間で言語を超えてモデルをトレーニングする。
なお、OpenHathi-Hi-0.1はテキストと音声の両方に対応しており、今後はインド企業と提携しデータに基づいたAIモデルを構築していく予定だ。
設立から5か月で4,100万ドルを調達
Sarvam AIの設立者のVivek Raghavan氏とPratyush Kumar氏は、以前インド研究機関のAI4Bharatで働いていた。AI4Bharatは、インド言語のオープンソースモデルやアプリケーションの開発に取り組んでいる。OpenHathi-Hi-0.1の開発に際し、Sarvam AIは同研究室と提携し、言語リソースとベンチマークを活用したという。
2023年12月、Sarvam AIはLightspeedやPeak XV Partners、Khosla Venturesが主導するシリーズAラウンドで4,100万ドルを調達した。設立からわずか5か月での資金調達ということで注目が集まっている。
参考・引用元:Sarvam AI
(文・山田)