TIS、大量の紙文書をデジタル化するサービスを提供–検索を容易にし資産文書を有効活用
今回は「TIS、大量の紙文書をデジタル化するサービスを提供–検索を容易にし資産文書を有効活用」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
TISは、仕様書・研究論文・設備点検報告書などの紙文書をデジタル化し、企業資産の有効活用につなげる「文書アーカイブDXサービス」の提供を開始すると発表した。
同サービスは、紙のデジタル化からAI-OCRで記載されている画像・文字をテキスト化するサービス。今まで文書捜索に要していた時間の短縮や過去の研究成果の活用、重複研究の防止、情報共有による技術伝承などに役立つという。
TISグループが提供する紙文書のスキャニングプロセスをアウトソーシングできる「文書スキャンBPO」と、あらゆるフォーマットから文字箇所を定義せずにOCR対応できるTISの「Paperoid」に含まれる「ドキュメントAI-OCRサービス」を組み合わせて一気通貫で提供する。
PaperoidはOCRにAI技術を加えて提供する、AI-OCRトータルサービスのブランド名称。この中にあるドキュメントAI-OCRサービスは、手書きや活字に関わらず、紙資料やPDFなどの画像でしか残っていない資料をテキストデータ化し、検索・データ活用を可能にする。書庫などに保管している資産書類のデジタル化やデジタル化した資産文書の有効活用などに利用されているという。
ドキュメントAI-OCRサービスでは、テキスト化した帳票画像は透過テキスト処理を施し、帳票上で文字をドラッグ選択することができる帳票ファイルを出力できる。またテキストファイルとして、特定ツールがなくても取引先や他部門関係者などに共有して参照してもらうことが可能だ。
文書アーカイブDXサービスのイメージ
文書アーカイブDXサービスでは、文書の画像化に向けたホチキス外しやファイル取り出し、裁断などのスキャン作業を文書スキャンBPOサービスとして利用できる。さらに読取箇所の定義をAIが自動で認識するためOCR対応する文字の範囲を手動で指定する必要がなく、対象の原本PDFに含まれる文字をすべてテキストデータ化できる。また、Paperoid上だけでなく、読み取った文書画像データを出力するとPDFに透過テキストとして埋め込まれるため、ファイル自体から直接キーワード検索できるようになる。
多くの企業では、紙で保管している過去文書について、新たな実験や研究などに利用できないかを確認する際、書庫やファイルサーバに保管している文書ファイルから捜索する作業が発生していた。これに対してTISは、ドキュメントAI-OCRサービスを活用して画像・文字のテキスト化を提供してきたが、大量に書庫に眠っている紙帳票のスキャン作業には膨大な工数がかかるという顧客からの声があり、文書スキャン BPOを組み合わせてサービス化することになった。