高精度OCRでも古い資料のテキスト化は難しい
同社は、書類・画像の文字情報をテキストデータへ変換するサービス「CLOVA OCR」を提供中。同サービスはさまざまな書式・文字形状の読み取りや多言語・専門用語の認識を高精度で実行できることを評価され、2019の国際会議ICDARにて4分野で世界No.1を獲得しました。今回は、国立国会図書館のデジタル化資料をOCRでテキスト化するプロジェクトを受託。しかし、昭和前期以前の資料が多く、現代の文章に最適化された既存のOCRでは精度に不安があったといいます。
そこで、既存のCLOVA OCRをベースに同プロジェクト用OCRモデルを開発しました。
昭和前期以前の資料に対応したOCRを開発
新たに開発されたOCRは、文字サイズや行間のばらつき、インク汚れなどのノイズ、現代とは異なる言葉・記号の用法、右読み文章などに対応。これにより、昭和前期以前の資料を認識できるようになりました。このOCRを活用し、デジタル化資料247万点(画像数2億2300万)をテキストデータ化。国立国会図書館の文字認識性能評価において、96%の項目で目標値を上回る結果となりました。なお、ベースとなったOCRの目標値達成率は約64%です。
成果物の一部を提供中
国立国会図書館は、同プロジェクトにおける成果物の一部を実験サービスなどの形で提供しています。たとえば、「次世代デジタルライブラリー」がそのひとつ。同館がデジタルコレクションで提供している資料のなかから、著作権保護期間が満了した図書約28万点について、OCRが生成した全文テキストから検索できます。
また、次世代デジタルライブラリーと同じ図書約28万点に出現する単語・フレーズの頻度を出版年代ごとに可視化・列挙する「NDL Ngram Viewer」も提供中です。
このほか、同プロジェクトのOCR対応字種(2万3026文字)の一覧や、OCR学習用データセットのうち著作権保護期間が満了した資料から作成されたデータセットを公開しています。
PR TIMES
LINE株式会社
「次世代デジタルライブラリー」
「NDL Ngram Viewer」
(文・Higuchi)