昨今はAIブームにより、インドではAIスタートアップが増加しており、2024年上半期時点で同国におけるAIスタートアップの資金調達額は7億6,000万米ドルにのぼるという。
インドのAI市場が急成長をみせるなか、アラブ首長国連邦を拠点とするテクノロジーグループのG42はヒンディー語大規模言語モデル(LLM)「NANDA」をまもなくリリースすると発表した。NANDAを通じて、インドのAIに対する野心を支援していく方針だ。
アブダビで設立されたAI開発グループG42
G42は2018年にアブダビで設立されたAI開発グループ。クラウドコンピューティング、ヘルスケア・ライフサイエンス、交通・モビリティ、公共事業など幅広い業界でサービスを展開している。30人のチームでスタートしたという同社は現在、85を超える国籍を持つ2万人以上のAI専門家やエンジニアなどを抱える大きなコミュニティへと成長。これまでAstraZeneca、AWS、Cisco、IBM、Illumina、Nvidia、Oracle、Schlumbergerなどの世界有数の企業と提携してきた。今年4月には、Microsoftから15億ドルを調達したと発表している。
そんな同社は昨年8月、子会社のInceptionがオープンソースのアラビア語LLMである「JAIS」を開発したと発表。
JAISは5億9,000万から700億のパラメータを持つモデルで、最大1.6兆トークンのアラビア語、英語、コードデータでトレーニングされている。同モデルにより、世界4億人以上のアラビア語話者が母国語の生成AIにアクセスできるようになった。NANDAの開発は、この成功に基づくものだという。
130億ものパラメータを持つヒンディー語LLM
インドで2番目に高い山とされる「Nanda Devi(ナンダ・デヴィ)」からインスパイアされた名前を持つNANDAは、AI企業のInception、AI研究に特化したアブダビの大学“ムハンマド・ビン・ザイードAI大学”、ディープラーニング専用AIコンピュータを開発するCerebras Systemsの共同研究の成果だ。同モデルは、ヒンディー語を含む約2兆1,300億トークンの言語データセットでトレーニングされたモデルで、130億ものパラメータを持つ。トレーニングには、G42とCerebras Systemsが構築した学習・推論用の強力なAIスーパーコンピュータの1つである「Condor Galaxy」を活用している。
G42はNANDAのリリースにより、5億人以上のヒンディー語話者にAIへアクセスする機会を設けることで、インドの科学、学術、開発者コミュニティに力を与えるという使命を拡大する方針だ。
参考・引用元:
G42
GlobeNewswire
(文・Haruka Isobe)