旧字・旧仮名、複雑なレイアウトに対応
「FROG AI-OCR」は、国立国会図書館向けAI-OCRプログラムを活用した、画像をテキスト化するソフトウェア。複雑なレイアウトや多様な文字種(旧字・旧仮名)へ対応し、OCR処理プログラムの精度向上を実現します。市販OCRでは対応が難しかった、明治期以降の近代書籍の旧字・旧仮名、異体字が読み取ることができるようです。
また、市販のOCRでは、多段組といった複雑なレイアウトを認識することが困難でしたが、FROG AI-OCRは本文や図表の位置を自動で判定。
そのほか、1860年代以降の書籍・雑誌において、市販OCRより高い90%以上の精度で文字を判定することが可能です。とくに、明治期~昭和初期の近代書籍・雑誌においては、市販OCRより約2倍(約40%→90%以上)の読み取り精度を実現します。
図書館におけるテキスト化のニーズ
近年は、地方のデジタル化を推進し、地方と都市の差を縮めることが目的の「デジタル田園都市構想」を背景とした、地方図書館・自治体によるデジタルアーカイブ事業のニーズが高まっているといいます。また、2019年6月には、障害の有無にかかわらず、すべての国民が等しく読書を通じて文字・活字文化の恵沢を享受できる社会の実現を目的とする「視覚障害者等の読書環境の整備の推進に関する法律(以下、読書バリアフリー法)」が施行。視覚障がい者へのテキストデータ提供といったニーズが高まっているようです。
こうした図書館におけるテキスト化の需要を受けて、モルフォAISは国立国会図書館向けAI-OCRプログラムを活用したFROG AI-OCRの提供を開始。
また、手軽にOCR適用業務がおこなえるよう、OCRの処理プログラムだけでなく、校正・テキスト出力機能も1つのパッケージとして提供します。
OCR研究開発事業を展開するモルフォAIS
モルフォAISは、2021年度から国立国会図書館の委託事業として、図書館向けAI-OCRの開発に従事してきました。本事業では、国立国会図書館デジタルコレクション上で提供される資料画像について、今後本文テキストデータの作成をおこなえるよう、モルフォの保有する最新AI技術・画像処理技術を取り入れたOCR処理プログラムの研究開発を実施。
その研究開発の成果となるのが、日本語のOCR処理プログラム「NDLOCR」。NDLOCRは、学習用データを用意することで追加の学習が可能なOCRで、2022年4月25日(月)にNDLラボ公式GitHubアカウントにて公開されました。
そのほか、モルフォAISは視覚障害者等用データ作成のためのOCR研究開発事業を展開。
国立国会図書館が開発したOCR処理プログラムをさらに機能追加・性能改善し、テキスト検索用途だけでなく、視覚障害者用の読み上げ用途にも活用できるテキスト生成を実現します。
PR TIMES(1)(2)(3)
(文・Haruka Isobe)