catch-img

アーカイブデータの利活用例 原本からテキスト化、加工データまで

今回は弊社でプロトタイプとして作成したアーカイブデータの利活用事例を紹介いたします。
これは、米国国立公文書館で収集したドキュメントを本社でデータの加工などを行い、GoogleEarth上に実装した事例です。原資料と原資料からテキストデータへ、そしてデータ加工についてデータをご覧いただきながら説明いたします。

目次[非表示]

  1. プロトタイプ作成の原資料となったアーカイブデータとは?
  2. 原資料から抽出したテキストデータを作る
  3. テキストデータから目的に合わせてデータを加工する
    1. 課題1:地点をどう割り出すか?
    2. 課題2:物量をどう示すか
    3. 課題3:データのクレンジング
  4. GoogleEarth実装用のデータを作る
    1. XML形式のデータ
    2. GoogleEarth に実装するためのKML形式のデータ
  5. まとめ


プロトタイプ作成の原資料となったアーカイブデータとは?

このプロトタイプの原資料は、米国国立公文書館に所蔵されたドキュメントとなります。
弊社は米国国立公文書館にて資料調査収集を行っており、米国事務所にてこのドキュメントを収集しました。

当ドキュメントは、アメリカが沖縄へ艦砲射撃を行った1945年の記録で、タイピングされたドキュメント上に表が作成され、細かくデータが記載されています。
これらのデータの一部をを弊社内で地図上にプロットしたらどのようになるか、誰の記憶にも残りやすく、資料を理解できるものが作れるのではないかという仮説を元にプロトタイプを作成してみることになりました。

プロトタイプ作成のため、データが網羅的ではないこと、仮設のまま実装まで行っている部分がありますがご容赦ください。



RG127 U.S.S. IRWIN(DD794) Record of Fire on all Targets UDT Support-Morning.  Date 29 March 1945 Entry 238F BOX55 National Archives at College Park, College Park, MD

上はその原資料の一部となります。

このドキュメントを見ていきましょう。

上部に書かれてある通り、U.S.S.IRWINという艦(船)が1945年の3月29日の記録です。
続く表には、その時間やインパクトの大きさなどが6項目に示されています。

・TIME from to 時間
・TARGET DESCRIPTION(Description or Neutralization) 方向
・RANGE(Direct or Indirect) 
・CALIBER 砲の口径
・No.HITS No.ROUND FIRED 何発
・FUSE

この類のドキュメントは、この当時弊社がプロトタイプとして収集したものを始めとして、相当な量が米国国立公文書館に所蔵されています。

原資料から抽出したテキストデータを作る

まず、この表のデータを画像から、分析を可能にするためにExcelなどのスプレッドシートにデータを転記しました。
画像に表されたアナログでーたから、分析可能なデジタルデータへ移行させることになります。

このデジタルデータ(テキストデータ)へ移し替える作業は、原本の意図を組みとること、忠実にデータすることを念頭に行なわれました。
また、表にはない項目でもその所蔵に係る情報や文書のヘッダーに含まれている情報は列を追加してデータ化されました。さらに、紙面の都合上2項目のデータが同列の上下に存在している場合は列を別にしてデータ化しています。


Excel形式に内容を入力したデータ


テキストデータから目的に合わせてデータを加工する

出来上がったテキストデータをさらに目的に合わせて加工していきます。今回は、GoogleEarth上に実装するのが目的ですので、その仕様に合わせてデータを作成しなければなりません。

さらに何らかの表現でその地点に与えたダメージ(物量)を示すことになりました。
上記のExcelデータそのものだけでは実現できない点がいくつかあります。

課題1:地点をどう割り出すか?

GoogleEarthのような地図ソフトは、緯度経度の指定によって地点を示します。その情報をどのように得ればいいのでしょうか。

元のテキストデータにも地点を表す情報はあります。それは表中「Target」という項目に示されているグリッド地図の番号です。


グリッド地図と地形図を重ね合わせた例

アメリカ軍は、地図上に番号とそれを縦5個横5個の25分割にしたグリッドを使って地点情報を示していました。


項目「Target」に示された数字とアルファベットからおおよその地点が割り出せることになります。
地図の緯度経度から各グリッド1個それぞれの中心点の緯度と経度を求めることにしました。
この緯度と経度は実際のところ正確性に欠けるのですが、プロトタイプの作成を優先させることにしました。
ちなみにこのグリッドの範囲の大きさですが、数字のグリッドは約850m四方、アルファベットのグリッドは約170m四方です。

課題2:物量をどう示すか

ターゲットに対してどのくらいのインパクトがあったのかについては、グリッドに柱を立ててその高さで表すことにしました。
何発打ち込まれたかということを示す項目「No.ROUNDS.FIRE」を高さで表しました。

課題3:データのクレンジング

元のドキュメントに忠実に作成されたExcelデータは、読み込ませるソフトウェアによっては曖昧とされてしまう部分があります。
例えば、日付は日付型として年月日まで入れる必要があったり、原資料上では同義であってもデータの記述に大文字や小文字の2通りが存在したり、数字のカンマ区切りがあったり無かったりなど、人間では何となく解釈できてもコンピュータから見ると不都合な点が多々あります。
これらは新たに修正項目を作成し、元のデータをつぶさないようにしながら修正していく必要がありました。

GoogleEarth実装用のデータを作る

XML形式のデータ

Excelなどの表計算を駆使して実装に必要なデータ項目を整備し、まずはXML形式でそれらの吐き出しを行いました。

※XMLとは
Extensible Markup Language(エクステンシブル マークアップ ランゲージ)は、基本的な構文規則を共通とすることで、任意の用途向けの言語に拡張することを容易としたことが特徴のマークアップ言語の総称である。一般的にXML(エックスエムエル)と略称で呼ばれる。JISによる訳語は「拡張可能なマーク付け言語」と定義している。XML文書のフォーマットを予め統一することで、異種プラットフォーム間での情報交換も可能となる。
(Wikipediaより)

実際に見てみましょう。以下は、地点「7867U」のデータの1つです。地点毎(地点によっては複数のこのデータが1セットになっています。



XML形式のデータ例

GoogleEarth に実装するためのKML形式のデータ

さらにGoogleEarthに読み込ませるためには、KML形式にする必要があります。

※KMLとは?
KML(ケイエムエル)は、アプリケーション・プログラムにおける三次元地理空間情報の表示の管理などを目的とした情報をXMLで記述するものである。2008年4月にKML2.2版は、そのままOpen Geospatial Consortium (OGC) という地理情報システムのオープンソース化を目指す団体の規格にOGC KMLとして取り入れられた。(Wikipediaより)

XMLからKMLに変換するツールは、インターネット上のフリーウェアで入手しました。



KMLに変換したデータ例

出来上がったKMLデータをGoogleEarth に読み込ませると。。


GoogleEarth に実装した画面

GoogleEarthの機能でさらに古地図などと組み合わせて表示することができます。前述のグリッド地図の重ね合わせがその一例となります。
これで、ドキュメントに記録された表がビジュアルにわかりやすく示されたことになるのではないかと思います。

米国事務所で、原資料のスキャニングとドキュメント上の表のExcelデータ化をしてもらい、それらのデータを受け取ってからは、表データの加工→XML作成→KML作成→GoogleEarthへの実装を何度も繰り返し行なってその見え方を試行錯誤しました。
これらはデジタルデータになっているので、一括処理を多く使うことができ、何度も試行錯誤をすることが可能でした。

今回ご紹介した作業で一番大変だったのは、ドキュメント上にある表データをテキストにする作業です。ただし、それができてしまえば今回のようなGoogleEarthだけではなく、さまざまなツールにも実装することができ、データをもっと利活用することができると思います。

まとめ

今回作成したプロトタイプは、地点に曖昧な部分がある、艦砲射撃の全てのデータを網羅していないなど様々な課題がありますが、その作成によりデータの収集やデータベース化に価値があるか判断材料を提供することができました。
成功事例だけではなく、失敗の事例や、プロトタイプなど活用事例を共有できれば利活用促進になるのではと考えます。

※今回のGoogleEarth の画像は、パソコン版GoogleEarth によるものとなります。


以下は、利活用の参考記事です。合わせてご覧ください。

  デジタルアーカイブの利活用事例! 種類やデザインの特徴とは? デジタルアーカイブは、公文書や文化財などの資料をデジタル化して、共有・公開する仕組みです。デジタル化するコンテンツの対象や検索機能の仕様、システムのデザインなどは活用分野によって異なります。この記事では、デジタルアーカイブの一般的な種類とその特徴、導入事例について解説します。 デジアカ


  アーカイブ資料の利活用「展示」を考える 夏休み期間もあって、各資料館、博物館、美術館では特別展が多く開催されています。多角的な表現で資料などを学ぶことの出来る展示は、展示されているテーマの理解を深めることができます。今回はデジタルアーカイブの最終形と言える展示について考えてみます。 デジアカ



Ishikawa
Ishikawa
デジアカサイト運営を担当しています。みなさまのお役に立てるサイトになりますように、日々積み重ねていきたいと思いますのでよろしくお願いします。 また、文書管理コンサルも担当しており、現用文書からアーカイブまでの興味深く携わらせていただいております。