凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCR開発
今回は「凸版印刷、明治期から昭和初期の手書き文字を解読するAI-OCR開発」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
凸版印刷は、明治期から昭和初期(近代)の手書き文字に対応したAI-OCR(人工知能を活用した光学文字認識)を開発した。
このAI-OCRは、同社が提供する古文書解読とくずし字資料の活用サービス「ふみのは」を基に、近代の多様な筆跡の手書き文字にまで対応の範囲を拡張させたもの。開発は、神戸大学経済経営研究所附属企業資料総合センターおよび公益財団法人三井文庫と共同で実施した。
近代の手書き文字には、書き手によるくずし方のばらつきが大きく、筆記用具の多様化、カタカナ語の混在、旧字旧仮名遣い表記などの特性があり、解読が困難とされている。今回開発したAI-OCRでは、さまざまなパターンの文字をAIに学習させることで、これらの難読文字の解読を実現した。
想定される活用のシーンとして、地方自治体、教育研究機関、企業などが所蔵する難読資料の解読補助、難読資料の活用を目的とした検索機能付きデータベースの構築補助、謄本類など、日常的に難読資料の解読が必要な企業・機関の作業補助などが挙げられる。
近代に作成されたくずし字を多く含む手書きの資料は全国に大量に残存しており、その中には公文書、企業経営文書、業務日誌、書簡のような貴重な情報が記された資料が数多く含まれている。また、手書きの謄本類を取り扱う業務では、近代の手書き資料の解読が日常的に行われているが、これらの資料の解読は専門家でも難易度が高く手間のかかる作業であり、実用レベルのOCR技術も開発されていなかった。
凸版印刷は11月から神戸大学経済経営研究所附属企業資料総合センターなどと実証実験を実施し、2023年4月に正式サービスの開始を予定している。また、提供中のふみのはゼミシステムや、開発中の古文書解読スマートフォンアプリなど、自社のサービスと連携させるという。