デジタルアーカイブ構築
導入事例

社史関連資料の画像データを、OCR処理によりテキスト化!

東京海上日動火災保険株式会社 三番町ビル

東京海上日動火災保険株式会社 図書史料室様

部署名:業務企画部
場所:東京都

 

 

導入の背景

数多くの社史関連資料等のデジタル化やデータベース化をすすめてきた 

 

導入の決め手

志向やリクエストの意図などを理解してもらいやすい

画像データを専門に取り扱う会社である 

 

実施内容

①全文をテキスト化して、透明テキスト付PDFをデータベースに登録

②手動で範囲指定をしてOCR処理を実施し、メタデータの内容細目にテキスト情報を追加

③資料情報のテキストマイニングを 実施

 

導入後の効果

資料の中に記載されている内容も検索することが可能になり、 見落としていた情報を拾うことができるようになった

メタデータの一部として文章が「読める」ことで、得られる情報の質量が一段階上がった

導入の背景

東京海上日動火災保険株式会社 図書史料室では、戦前・戦後の営業報告書や社内報、商品パンフレットなど、数多くの社史関連資料等のデジタル化を進めてきました。

作成した画像データはメタデータと紐づけてデータベース(業務用に使用の「まいく郎※」、以下同様) に登録してきましたが、
メタデータ検索に加えて、全文検索機能を付加することにより、
利便性の向上や効率化、価値のある資料の掘り起こしにつながるのではないかと考えました。

ただ資料の中には手書きや旧字体の資料、写真や広告が散りばめられた資料もあるため、
OCRの認識精度は不確実です。
そうした資料のOCRによるテキスト化がどこまで可能なのか、
また資料の性質に応じて、OCRの認識精度がどのように異なるのかを検証したいという目的もあり、いくつかの資料群をピックアップして、テキスト化のトライアルに着手しました。


導入の決め手

デジタルアーカイブズ構築の当初から資料のデジタル化やメタデータの整備、データベースの導入・登録などをお願いしており、当方の志向やリクエストの意図などを理解してもらいやすく信頼をしています。

またニチマイさんは画像データを専門に取り扱う会社であることから、様々なOCR技術による比較検証と、テキストデータの有効な活用方法などについて提案を受けられると考えました。

実施内容

①全文をテキスト化して、透明テキスト付PDFをデータベースに登録

全文を対象としたOCR処理により、透明テキスト付きのPDFをニチマイさんに作成してもらいました。

手書きや旧字の資料もありましたが、ニチマイさんのほうで『NDL OCR』など様々なOCRソフトで検証していただき、想像していたより高い精度でテキストの認識がされていました。検証結果のコメントを興味深く拝見しました。

OCR処理をした透明テキスト付きPDFは、データベースシステムに登録をしてもらいました。

②手動で範囲指定をしてOCR処理を実施し、メタデータの内容細目にテキスト情報を追加

こちらでテキスト化するエリアを指定し、ニチマイさんにはその範囲についてのみOCR処理をしてもらいました。

今回お願いした対象は、ディスクロージャーや有価証券報告書など毎年ほぼ同じ書式や項目を用いて作成されている資料です。指定したエリアには、その年度の概要やトピックスが掲載されており、各年度特有のキーワードが詰まっています。

先述のとおり全文テキスト化はしましたが、あえて特定エリアだけテキスト化をして、内容細目に転記することにしました。

テキスト化するエリアを範囲指定することにより、レイアウトなどの認識ミスが少なくなるため、OCRの認識精度が高まりました。

こうして作成したテキストデータを、ニチマイさんのほうでメタデータの内容細目に転記し、先述の透明テキスト付きPDFと紐づけてデータベースに登録してもらいました。

③資料情報のテキストマイニングを
 実施

ニチマイさんの提案により、資料のテキストデータから有用なキーワードを抽出するテキストマイニングを実施しました。

新たなキーワードの発見が新たな用途の発見につながることもあるため、試験的に実施しました。

形態素解析により頻出の単語を洗い出し、さらにTF-IDFという計算方式により、
有用なキーワードを抽出するというものです。

用途や有効性の検討はこれからですが、参考データとして活用できればと考えています。


導入後の効果

これまでは資料のタイトルなどによるメタデータ検索と、データベースシステムに搭載されているツリー検索に頼っていましたが、資料の中に記載されている内容も検索することが可能になりました。
見落としていた情報を拾うことができるのではないかと期待します。

またテキスト化した内容細目のデータは、社内で利用者と共有しているデータベースにも落とし込みをしてOPACで検索、参照ができるようにしました。メタデータの一部として文章が「読める」ことで、得られる情報の質量が一段階上がった印象があります。当たり前ではありますが、テキストには単なる検索のためのキーワードという用途以上の価値があると実感しました。


企業アーカイブズとしても機能している図書史料室では、資料をより多くの社員に活用してもらうことが重要だと考えています。
そのためにも自らが、「価値がある」「面白い」「役に立つ」コンテンツを提供し続ける仕組みを作るということを心がけており、今回のようなデータベース構築に係る基本的な取組みこそが重要と考えています。

東京海上日動の歴史

 

※まいく郎 FMシステム

 https://www.fmsystem.co.jp/products/maikuro_v7/index.html

 

 

東京海上日動火災保険様のインタビュー記事はこちら↓

アーカイブデータ利用環境構築支援についての事例はこちら

参考になるホワイトペーパー

関連記事

デジタルアーカイブはニチマイのデジアカにお任せください

ご不明な点はお気軽に
お問い合わせください
お役立ち資料はこちらから
1分でダウンロード
何でもお気軽にご相談!!
お電話でのお問い合わせはこちら