こうしたなか、アレン人工知能研究所、チャン・ザッカーバーグイニシアチブ(CZI)、Microsoft Researchらがコロナウイルス(SARSやMERS含む)に関する論文集「COVID-19 Open Research Dataset(CORD-19)」を公開した。
同データセットは、ホワイトハウスの意向で機械読み取りが可能な形式になっており、論文から欲しい答えを抽出する技術の開発が狙いだ。
・2万9000本以上の論文を研究リソースに
テキスト/データマイニング技術開発にあたっては、アレン人工知能研究所が提供するSciSpacy(科学文章に特化した処理ツール)や、SciBERT(科学文章に特化したBERTモデル)など、強力なツールが用意されている。CORD-19は、2万9000本以上の論文からなり、そのうち1万3000本以上が全文掲載だ。WHOやPubMed、Microsoft Academic…などが提供の膨大なリソースをマンパワーで探るのは困難。質問に対して優先度の高い答えが抽出できるテキスト/データマイニング技術の開発が呼びかけられている。
・Kaggleを利用する4百万人の研究者の力を借りる
このCORD-19チャレンジは、機械学習/データサイエンスコミュニティのKaggleにて開催され、開発された成果物は同プラットフォーム上で公開されることになる。COVID-19に関する論文公開に関しては引き続き働きかけられ、データセットは毎週更新されるとのこと。
テキスト/データマイニング技術が開発されれば、世界中の研究者が重要な情報に素早くアクセスできることになり、COVID-19の究明に大きく貢献するだろう。
参照元:Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset/ White House