
デジタルアーカイブにおける検索方法とこれからのAI検索
デジタルアーカイブにおいては、資料のテーマや利用者の目的、想定される活用シーンなどに応じて、最適な検索方法を選択することが重要です。この記事では製造業における社史を例に、デジタルアーカイブに不可欠な基本的な検索手法から、AIを活用した先進的な検索技術、さらにAIの弱点を補うために人が担うべき役割などについてご紹介します。
キーワード検索
最も代表的な検索方法がキーワード検索です。検索窓に言葉を入力し、その言葉を含む資料を探す方法です。
【例】
〇検索キーワード(全文検索)
「海外進出」
〇検索結果
海外工場設立の資料
海外販売の歴史
海外事業の年表
検索結果としてこうした資料がヒットすることが期待されます。キーワード検索はシンプルで使いやすくポピュラーな方法です。しかしヒットさせるためには、資料にこれらのキーワードが紐づいていること、あるいはOCR技術などで何らかの形でテキスト化されていることが条件となります。また資料に使われている言葉と異なる場合、検索結果に表示されないこともあります。
当社ではこうしたキーワード検索が可能となるよう、デジタル化した資料をOCR技術によってテキスト化するサービスを行っております。さらに最近ではAI-OCRの技術によって、これまでのOCRが苦手としていた手書き文字や非定型の資料、文図混合の資料なども高い精度で認識できるようになってきています。資料の検索をさらに充実させてたいという方は、ぜひご相談ください。
メタデータ検索
デジタルアーカイブでは、資料にメタデータを付与することが一般的です。主なメタデータ項目の例として、次のようなものがあります。
- タイトル
- 年代(作成年)
- 製品名
- 部門
- 技術分野
- 資料種別(写真・報告書など)
メタデータの代表的な標準としては、Dublin Core(ダブリン・コア)やジャパンサーチ共通メタデータフォーマットなどがあります。メタデータはどのような項目を設定するかによって検索効率に大きく影響します。
【例】
〇検索
- 年代:1980~1989(1980年代)
- 資料種別:製品カタログ
〇検索結果
- 1985年の製品カタログがヒット
- 1987年の新製品パンフレットがヒット
検索項目があらかじめ設定されていて、検索すると候補が絞り込めるため、全文検索よりもピンポイントで探せる(ノイズが少ない)のが強みです。
分類検索
社史のアーカイブでは、資料をテーマ・種類・年代・地域などのカテゴリーごとに分類して、整理するということも多く見受けられます。その分類を辿って検索する方法が分類検索です。例えば製造業では、次のような分類が考えられます。
製品→製品別に分類(表示される資料の例:製品カタログなど)
開発→プロジェクト別に分類(表示される資料の例:技術開発報告書など)
経営→年代やテーマ別に分類(表示される資料の例:経営者会議の議事録や事業報告書など)
広報→年代やテーマ、媒体別に分類(表示される資料の例:広告や社内報など)
先述のキーワード検索やメタデータ検索は言葉を入れて検索するため、言葉が一致していないと検索できない(システムによって補完する機能はあります)のに対し、分類検索は分類体系や目録構造を辿りながら探すことができるので、直感的に探せる、関連の資料を見つけやすいという特徴があります。一方で分類のしかたと検索者が認識しているカテゴリーに乖離があると、資料に辿り着けなくなるといったことも起こり得ます。
年表検索
歴史資料や出来事を 特定の年代(年・時代・期間)から時系列に検索する方法です。特に企業の歴史は時間の流れと密接に関係しているため、時系列で歴史を把握できる年表検索は、社史のアーカイブと相性が良い部分もあります。
【検索の例】
「1990年代の出来事」
「2005年に発売された製品」
「創業から10年の間に起きたイベント」
などが考えられます。
出来事や文書を「いつ」の軸で並べて探せるため、記憶をベース(あの頃の出来事)に検索しやすいのが特徴です。出来事の連続性が見えるため、創業期や成長期など企業のステージに応じた、背景やストーリーを理解しやすいといったメリットがあります。
地図検索
地図上の位置情報(場所・住所・施設・座標など)を使って目的の情報を探す検索方法です。キーワード検索とは異なり、場所を軸に情報を探せる点が特徴です。地図をクリックすると資料が表示されるような仕組みで、主に地域史の資料や遺跡資料、古地図などで使われています。社史では拠点ごとの検索に用いることが期待できます。
AIを活用した検索
近年注目されている方法として、AIを活用したセマンティック検索があります。ここまでご紹介してきた検索は、基本的には「入力した言葉と同じ単語を含む資料」を探すのに対し、セマンティック検索では言葉の意味や文脈、関連性を理解して検索することができます。これまでの機械的な検索では、検索エンジンによっても異なりますが、検索キーワードに入力した文字列が含まれているか否かによって検索結果は左右され、表記ゆれや言い換えにも弱いという特徴がありました。AIを用いた検索により、人が頭の中で考えるような「あいまいな意図や文脈」を理解したうえで、必要な資料を探し出してくれることが期待できます。
【検索の例】
「創業者が一番苦労した話ってなに?」
「大失敗した製品を教えて」
「あの時海外進出を断念した理由は?」
といった形で、人に聞く時のような感覚で検索することができます。
あるいは表記ゆれがあったりキーワードが一致していなくても、関連性が近いものを判断して示してくれます。
「環境に優しい製品」と検索→「省エネ機器」「リサイクル対応製品」などもヒット
「改善報告書」と検索→「是正措置報告書」や「監査指摘対応報告書」などもヒット
「電算機部」と検索→「情報システム部」や「IT戦略室」に関連する資料もヒット
単に「単語が含まれるページを表示する」だけでなく、その前後の文脈から「何が起きたのか」を示してくれるため、散らばっている情報を「テーマ別」にまとめやすくなり、社史の編纂作業や、内外からの問い合わせへの対応がスピーディになることが期待できます。
さらには要約やハイライトも表示してくれるため、大量・長文の資料から、人が“知りたい要点”だけを短時間で把握できるように、AIが整理して提示してます。単なる短縮ではなく、読む目的を理解して助けてくれるという点が特徴で、重要・注意・判断に関わる箇所の色分けや強調表示により、読むべき場所が一目で把握することが可能になっていくと考えられます。
AIの弱点と人がやるべきこと
しかしこれだけ万能に見えるAIでにも弱点があり、それを補強するための準備をしなければなりません。
AIが苦手とすることの一つとして、「正解となるたった1つの資料(ファイル)」を探し出すのが苦手ということが考えられます。先述のとおりAIは意味や文脈から「この質問に意味的に近い文書たちはこれです」というふうなニュアンスで判断するため、ベスト3〜10くらいまでを選ぶのは得意である一方、ピンポイントで1件を指定することは苦手な傾向にあると言えます。
また「プロジェクト名」や「地名」などをピンポイントで探したい時に、別のエピソードが混ざり込んでしまう可能性があることも、弱点として挙げられます。そしてなんといってもアーキビストの専門家がされるような「資料の価値判定」は、AIにはとても難しいものと考えられます。
こうした中でAIの優れた機能を最大限に活かして利用するためには、やはりAIに頼り切るのではなく、人の手が介在することも必要です。AIと人がやることの棲み分けとしては、次のようなものが考えられます。
【AIに任せることの例】
- 意味や文脈から、候補を絞ってもらう
- 類似資料を横断的に提示してもらう
- 要点・ハイライトの提示してもらう
- 全体のタグ付けや分類をしてもらう
【人がやることの例】
- (1件を特定できるよう)資料に一意なIDを付与して特定できるようにしておく
- メタデータ検索やカテゴリー検索を併用できるよう、体系的に整理しておく
- 利用者の需要という目線でキーワードなどの属性情報を付与する
- デジタルアーカイブの目的や利用者層に応じて、価値のある資料を選定する
このように人とAIが協働することによって、効率的で正確性の高い情報の利活用が可能になるのではないでしょうか。デジタルアーカイブにおける検索においては、「候補をAIで出して、人間が確定する」、あるいは、「人の確認を前提にし、可能性が高い資料を提示する」、こうした仕組みにすることによって、AI技術を用いた検索が機能するものと考えられます。
まとめ
- キーワード検索:基本的な検索方法
- メタデータ検索:年代・製品などの項目で検索
- カテゴリー検索:テーマ別に辿って検索
- 年表検索:時系列で検索
- 地図検索:地図上の位置情報を使って検索
- AI検索:意味や文脈理解による検索。人とAIの協働が必要
資料を効率よく検索できるようにするためには、まずはデータの作り方が重要です。ぜひご相談ください。
最後までお読みいただきありがとうございました。










