判読が困難な“くずし字”
日本国内に数十億点以上残存すると言われている古文書。そこには、昔の生活の様子や災害記録、地域文化などが記されており、現代の社会課題解決につながり得る情報も多くあるといいます。しかし、そのほとんどは“くずし字”で記されているため、現代人には判読が困難。また、個人が所有する古文書となると内容がわからないために破棄されるケースも多く、貴重な情報を失うリスクもあるようです。
そんななか、くずし字OCR技術の開発・実証を重ねてきた同社。これまで法人向けに複数のサービスを提供していますが、一般利用者向けサービスへの要望を受け、このたびのアプリ開発に至ったといいます。
専門知識がなくても使いやすい設計
今回開発されたアプリには、木版印刷物と手書き2種類のくずし字資料に対応したAI-OCRエンジンを搭載。文字の形や使われている字種が異なる2種類の古文書に対応することで、幅広い種類のくずし字解読を実現します。また、AIにおまかせの“フルオートモード”と、より高精度な“1文字モード”を実装。フルオートモードでは、文字領域を自動検出し、文字の区切り位置も含めて解読します。1文字モードでは、選択した文字の解読候補となる文字を複数提示し、文脈に合った文字を選択できるようです。
これらのモードにより、専門家はもちろん専門知識がない人でも利用できるでしょう。同アプリによって、研究機関などの作業効率化と個人所有の古文書解読を支援するようです。
くずし字OCRを活用したサービス
それでは、同社が法人向けに展開している、くずし字OCR技術を活用したサービスを簡単に紹介しましょう。たとえば、古文書の画像を預かってOCRで解読し、高精度なテキストデータなどを返却する「古文書解読サービス」。オプションとして、ひらがなのみの文章に対する漢字・句読点の補完や現代語訳なども提供しています。
また、オンラインで古文書解読ができるシステム「ふみのは ゼミ」も提供中。OCRのアシストを受けながら、複数人で同時に解読作業を実行できます。
そして、解読結果を公開できるソリューションも展開。オンライン公開できる「ふみのは ビューア」と館内展示用タッチパネルに表示する「ふみのは タッチ」があります。
PR TIMES
凸版印刷株式会社
(文・Higuchi)