デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法

前回記事に続けてもう一つ、デジタルアーカイブにおけるテクスト資料の扱いについての記事です。

 

ここまで、このブログでTEIに関する話を読んできていただくと、「そんなに細かいタグを付けるのは大変だ」と思ってしまわれる人も結構おられるのではないかと思います。しかし、TEIでは、必ずしも細かく深いタグをつけていかねばならないというものではなく、浅いマークアップ(タグ付け)でもTEIであると言えますし、それでも一定の機能を果たすことはできます。

 

特に、こういったことについて関心があるのは、やはり図書館の方々のようです。デジタル化はするが、内容にあまり深入りすることははばかられる、あるいは、時間的コスト的に内容のタグ付けなどはさすがにちょっと無理、というような状況は、世界中のどこにでもあるようで、しかし、それでもテキストデータを書誌情報とともにうまく流通させるにはTEIを使っておくことが後々有益だろう、ということで、図書館の方々が中心となって、Best Practices for TEI in Libraries というガイドラインが作成されたようです。

 

ここでは、TEIでのマークアップのレベルを4つに分けています。それをラフに翻訳してみると、

 

Level 1: OCRで生成されたテクストデータ。ページ画像に紐付けられており、ページ画像なしで電子テクストとして単独で用いられることを意図したものではない。エンコーディング(タグ付け・マークアップ)は全文検索を補助するために行われる。

 

Level 2: OCRで生成されたテクストデータであり、ページ画像に紐付けられている。ただし、Level 1と異なり、テクストの領域や見出しなどはきちんとマークアップされている。

 

Level 3: テクストデータは、OCRか手入力のいずれかによって作成されている。テクストの構造がある程度マークアップされており、ページ画像はなくても利用できるものもある。

 

Level 4: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、学生や研究者、一般の読者が読むにあたり、ページ画像がなくてもテクストデータだけで利用可能なもの。

 

Level5: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、Level 4と同様に、ページ画像がなくても利用可能なものである。それに加えて、専門知識を持った担当者による人手での充実したタグ付けが行われたもの。

 

 

という感じのようです。つまり、筆者があれこれ書いてきているTEIの利用法のほとんどは、Level 5 の話であって、そうではないマークアップの仕方もこのように色々考えられているということです。具体的にどうマークアップするか、ということは、事例が色々と上記のページに載っていますので、まずはそちらをご覧ください。

 また、こうなってくると書誌情報をどうするのか、という話が気になりますが、上記のページの

4.1.6. Element and Attribute Recommendations for the TEI Header

というチャプターでは、MARCとTEIのタグとの対応付けの仕方が載っていますので、そちらをご覧ください。基本的に、MARCから自動変換できるのではないかと思います。

 

こうしておくと、何が良いのかと言えば、一つの資料(テクスト)単位でデータが流通した場合でも、メタデータをきちんと一緒に流通させられるということと、それから、修正した場合に修正した人がその修正に関する情報も機械可読な形で記述した上でさらに流通させられること、は、とりあえずすぐに思いつくメリットです。基本的に、TEIはデータの追記と処理がしやすいので、可用性の高さという観点から色々なメリットが出てくるだろうと思います。

 図書館等での内容にあまり踏み込まないデジタルアーカイブ公開の際に、OCR翻刻をするなどしてテキストデータが何らかの形で付与され、それがオープンなライセンスの下で公開されることもあると思います。そのような場合に、このようにして上記のそれほど高くないLevelにて公開しておけば、手間をあまりかけずにデータの有用性を高めることができるのではないでしょうか。

 

ちなみに、日本での事例はどうなのかと言えば、もう3年ほど前になりますが、筆者が国会図書館デジタルコレクションの資料を共同翻刻するシステムを開発した際に、NDLのメタデータのごく基本的なものを抜き出して、翻刻したテクストデータとあわせて上記のLevel 2と3の間くらいのTEIマークアップファイルを生成できるようなものも作ってみております。

たとえば以下のテクストデータを

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562

以下のように変換してみています。なお、下記のページでは、レスポンスヘッダのContent-TypeをXMLにしていないのでソースファイルをご覧ください。

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562&format=teibp

まだ色々不十分な感じもありますので、今後さらに精進していかねばと思っておりますが、とりあえずこれだけでも、テキストデータと書誌情報、それから画像(のURL)を一定のルールで比較的容易に共有できますので、そこに有用性を感じていただくことはできるのではないかと思っております。