歴史資料解読のカギとなる技術をさらに高度化
歴史研究の進展や文化継承の観点から、歴史資料の解読・利活用は欠かせません。しかし、歴史資料の多くは“くずし字”で書かれているため、専門家以外には解読が困難。内容がわからないまま眠っていたり、紛失したりするものも多くあるようです。
そこで凸版印刷は、OCR技術(自動文字認識)を活用し、くずし字資料の読解や公開をサポートするサービス「ふみのは」を2021年にリリース。同サービスでは、OCRで歴史資料を解読し、テキストデータとして提供します。
また、複数人がオンライン上で読解する際のサポートも可能。加えて、解読結果をオンライン・オフラインで公開するためのソリューションも提供しています。
「ふみのは」は、多くの研究機関への導入が進むなか、さらなる高度化・高精度化が望まれているといいます。
“行”の検出と“文字”の認識
そしてこのたび、国内最大規模のAI開発技術者ネットワークである「SIGNATE」を活用したコンペ「くずし字認識チャレンジ」を開催することになりました。
同コンペでは、データセットとして「日本古典籍くずし字データセット」を提供。SIGNATE会員を対象に、「行領域認識部門」と「行内文字認識部門」の技術を3月22日(火)~5月23日(月)の期間で募集します。
行領域認識部門では、あるページの“行”を検出するアルゴリズムを作成。行内文字認識部門では、あるページで切り取られた1行に対して、書かれているくずし字を認識するアルゴリズムを作成します。
選考結果公表は、6月14日(火)を予定。1位から3位の入賞者には賞金が贈られるとのことです。
データサイエンスプラットフォーム「SIGNATE」
今回活用された「SIGNATE」は、6万人以上のAI・データ分析人材が登録する国内最大のデータサイエンスプラットフォーム。登録しているデータサイエンティストは、コンペへの参加や教材による学習でスキルを磨きます。
各企業は自社ニーズに沿ったAIアルゴリズムをコンペ形式で募集。在籍するデータサイエンティストが提供したアルゴリズムの精度を比較し、最適なものを活用するというサービスです。
AI開発やビッグデータ分析などに必要な人材が不足するなか、コストを抑えつつ高精度のアルゴリズムを獲得できるサービスとして注目されているといいます。
PR TIMES(1)(2)
「ふみのは」サービスサイト
株式会社SIGNATE
(文・Higuchi)