デジタルアーカイブにおけるメタデータの項目と入力方法
デジタルアーカイブを進める上でメタデータの作成は非常に重要です。
どのような項目を設定するかによって、利用者の検索性にも大きく影響します。
今回は、メタデータ項目の設定方法や入力方法についてご紹介します。
目次[非表示]
- ・メタデータの作成にあたって
- ・メタデータ検索と全文検索の違い
- ・メタデータ項目をどうするか?
- ・1.Title(タイトル)
- ・2.Creator(作成者)
- ・3.Subject(キーワード)
- ・4.Description(内容記述)
- ・5.Publisher(出版者、製作者)
- ・6.Contributor(寄与者)
- ・7.Date(日付)
- ・8.Type(資源タイプ)
- ・9.Format(記録形式)
- ・10.Identifier(資源識別子)
- ・11.Source(出処)
- ・12.Language(言語)
- ・13.Relation(関係)
- ・14.Coverage(時空間範囲)
- ・15.Rights(権利管理)
- ・その他(ダブリンコアにない項目)
- ・メタデータの入力方法
- ・まとめ
メタデータの作成にあたって
デジタルアーカイブは、利用者が不特定多数になることがほとんどであるため、検索によって閲覧したい資料に多くの人が辿り着けるようにしなければなりません。
そのためにも検討が必要になるポイントの一つが、どのようなメタデータ項目を設定するか、ということです。
インターネットで公開する場合においては、目録から検索するケースの他、キーワードで検索するといったことも想定しておかなければなりません。
メタデータは資料を管理するという機能もありますが、利用者にやさしいものにすることで、「多くの人に利用されるデジタルアーカイブ」となるような役割も果たします。
『デジアカ』のメタデータなどの入力サービスはこちら
メタデータ検索と全文検索の違い
最近では有能なOCRソフトが開発されて流通しており、デジタルアーカイブの世界においてもこれまで叶わなかったテキストによる全文検索が可能になりました。
国立国会図書館が開発したNDLOCRは、書籍や雑誌などの画像データから本文のテキストデータを作成できるOCRプログラムで、明治~昭和期の古い資料や独特なレイアウトにも対応しています。これはNDLが提供する「国立国会図書館デジタルコレクション」で利用可能です。
国立国会図書館デジタルコレクション
https://dl.ndl.go.jp/ja/
このようなOCRプログラムが発展していく中、
メタデータ検索と全文検索ではそれぞれ利点が異なるため、
うまく融合的に使用することが求められます。
メタデータ検索
メタデータ検索は、タイトルや著者など設定した項目に対してピンポイントで検索できるため、
キーワードにマッチしたメタデータ項目が設定されていれば、
かなり絞り込んだ検索が可能になります。
一方メタデータに設定されていないようなキーワードや、
自分のテーマから個人が自由に発想するようなフリーキーワードから資料を探すことは困難です。
全文検索
個人が自由にキーワードで検索するのが全文検索ということになります。
メタデータ検索だけでは拾うことができなかったような資料が、全文検索によりヒットしたという事例もよくあります。
しかし全文検索も万能というわけではありません。
キーワードの持つ意味が広すぎてしまえば当然、
ヒット件数も膨大になってしまい、そこから絞り込むのに時間を要してしまいます。
簡単な例を挙げれば、「デジタルアーカイブ」に関する著書を探したい時に、
全文検索で「デジタルアーカイブ」と検索すれば、
タイトルだけでなく文中に「デジタルアーカイブ」を含む著書もヒットしてしまい、
検索結果は膨大な量になってしまいます。
これをメタデータ検索の「タイトル」の項目に「デジタルアーカイブ」と入力すれば、検索結果は一気に絞り込まれます。
このようにメタデータ検索と全文検索、それぞれの利点を意識してデジタルアーカイブを構築していきます。
メタデータ項目をどうするか?
標準的なメタデータ項目としてダブリンコア(Dublin Core)があります。
こちらの記事でもご紹介しました。
公的機関なども推奨していることからも、このダブリンコアを基に必要な項目を展開していくことが有効であると考えられます。
参照元
国立国会図書館ダブリンコアメタデータ記述(DC-NDL)解説
https://www.ndl.go.jp/jp/dlib/standards/meta/about_dcndl.html
以下ではこちらを参考にして、設定するメタデータ項目について解説したいと思います。
1.Title(タイトル)
資料や著書のタイトルです。検索するときの手掛かりとなることが多いため必須の項目です。
2.Creator(作成者)
通常の資料であれば作成者ですが、著者や撮影者、組織名・団体名などになることもあります。
これらは特別な読み方をすることもあるので読みかたも示されているとよいでしょう。
3.Subject(キーワード)
フリーワードのような自然語を入れる場合と、シソーラスのような統制語を入れる場合があります。
自然語の場合は多様なキーワードに対応できる反面、
表現などのばらつきにより検索キーワードと一致せず検索できないといったことになる可能性があります。
一方統制語は、資料の種類や分類ごとに体系化するため検索の精度は高まりますが、
統制語の構築にかかる工数が膨大になるといった弱点があります。
4.Description(内容記述)
資料の内容に関する情報、具体的には解説やエピソードなどが該当します。
5.Publisher(出版者、製作者)
資料そのものの作成者とは異なり、その媒体を物理的に作成した団体名や個人名となります。
6.Contributor(寄与者)
アーカイブの公開機関などを示します。
7.Date(日付)
資料が作成された年代や作成日などを示します。
8.Type(資源タイプ)
資料の種類やカテゴリ、コレクションの名称などを示します。
9.Format(記録形式)
多岐にわたりますが、主に次のような項目を設定します。
・資料の形状(冊子・大判図・アルバム・フィルム・テープなど)
・数量(ページ数や枚数、収録時間など)を示します。
10.Identifier(資源識別子)
資料ごとに付与するユニークな番号です。これがないと資料を特定することができないので、必須の項目になります。
11.Source(出処)
情報資源を作り出す元になった別の情報資源に関する情報、出処などを示します。
12.Language(言語)
文字や音声で用いられている言語を示します。
13.Relation(関係)
他の関連のある資料との関係を注釈的に示します。
14.Coverage(時空間範囲)
資料の時間的特性や地理的特性などの属性や、資料の内容と関係のあるキーワードを示します。
15.Rights(権利管理)
著作権などの権利やデジタルデータの利用条件、これらの記述へのリンクなどを示します。
その他(ダブリンコアにない項目)
その他ダブリンコアで設けられてはいませんが、あると運用上便利な項目をご紹介します。
・資料の保存場所
資料の現物の所在を示します。
・デジタルデータ
デジタルアーカイブを進める上で作成された画像データや音声データのファイル名やパスなどを 示します。リンクなどを安易に記入すると管理が煩雑になるため、運用ルールを事前に決めることが必要です。
メタデータの入力方法
入力方法には主に「手入力」と「OCR処理によるテキストデータからの入力」があります。
・手入力
手入力については、現物の資料や資料の画像データを見ながら手で入力をしていく方法です。
人の手による作業なのでミスも起こりますが、ベリファイという入力方法でフォローします。
ベリファイ入力とは、2名以上の複数のスタッフが同じ文字を入力し、
入力結果を照合してミスがないか確認することを指します。
具体的には次のような手順となります。
①入力スタッフAと入力スタッフBが同じ資料から同じデータを入力する
②2名が入力したデータを突き合わせて、差異がないかシステムでチェックをする
③差異があった場合は原因を究明し、正しい情報を入力する
このような手順を踏むことで、正確性を確保することができます。
・OCR処理によるテキストデータからの入力
OCR処理とは、テキストとして認識していないビットマップデータを、テキストに変換して認識するための処理技術です。
テキスト変換の認識精度は、OCRソフトや対象資料によってバラツキが生じます。
正確性は手入力の方が確保できますが、
「内容記述」のような文字数の多い項目については、
内容記述にあたる該当箇所を範囲指定し、OCR処理をした方が効率的である場合があります。
画像データの解像度や手書き・活字などによっても認識精度は影響を受けるため、
サンプリングで認識精度をテストしてから、
手入力にするか、OCRを利用するかを判断するとよいでしょう。
まとめ
今回はメタデータについて、以下の内容をご紹介しました。
・資料の検索性は、メタデータの完成度によって大きく左右される。
・メタデータ検索と全文検索では利点が異なるため、両者の利点を生かし融合的に利用する。
・ダブリンコアを参考に、自分の組織にとって必要な項目を設定していく。
当社ではこうしたメタデータや画像データを作成し、データベース化するところまで支援しています。
メタデータの作成やデータベース化に関連するお客様事例は、こちらからダウンロードできます。ぜひ参考にしてください。
東京海上日動火災保険株式会社さまの事例
資料の画像データとメタデータを整備して、データベースを構築
小金井市役所さまの事例
広報記録写真データの各画像に対してメタデータを作成しデータベースを構築