「デジタルアーカイブ」で全文テキストデータをうまく継承していくには

　デジタルアーカイブ学会が設立されて第一回の学術大会が開催され、ジャパンサーチ（仮称）がその姿をみせつつあるなど、デジタルアーカイブが再び脚光を浴びつつあります。しかしながら、我が国ではデジタルアーカイブは以前にもブームになったことがあります。そのときに作ったものはどこに行ってしまったのか、ということも議論されるべきだろうとは思いますが、とりあえず、まず考えるべきことは、これから作ろうとするものが、今度こそはどこかに行ってしまわずに、きちんと、できる限り継承されていくことだろうと思います。そこを踏まえた上で、過去を振り返ることも余裕があればやってみるとよいだろうと思っております。やや狭い範囲ですが、私もかつて過去のデジタルアーカイブの営みについての調査をしたことがありました。

　さて、「デジタルアーカイブをできる限り継承する」ことについての一般的な話については、この間、依頼をいただいたので原稿を書いたところです。これは、9月に京都で開催されるデジタルアーカイブサミットで配布されると同時にネットでも公開されるそうですので、そちらをご覧ください。要するに、できる限り継承するためにはなるべく標準的な規格にあわせてデータを作る必要があり、再配布可能なライセンスで公開することとあわせれば、何らかの形で維持していけるだろう、ということを書いております。ただ、そのなかでは、個々の標準的な規格については特に深く言及してはいません。そこで、特に日本語での解説が手薄な、TEI (Text Encoding Initiative) に関する話を、このブログにて数回にわけてご紹介していきたいと思います。

　TEI (Text Encodnig Initiative) という呼称は割と広く使われていますが、正確に言えば、TEI協会がTEIガイドラインを作成して、テキストデータの共有に関して共有すべき事柄を提示する、という形になっています。そのいずれもがTEIと呼ばれることがあります。

　TEIは、1987年から欧米で作られてきているテキストデータを効率的効果的に共有するためのガイドラインです。主に、人文学者と情報工学者、図書館情報学者、専門司書といった人々が集まって作っている規格であり、人文学での活用を特に念頭に置いています。いわゆるコミュニティ駆動型の規格になっており、技術の発展とコミュニティの拡大にあわせて、適用範囲を広げてきています。たとえば数年前は、書簡のメタデータに関する議論が流行し、分科会もなかなか盛り上がっていました。TEI自体がどれくらい貢献しているのかはわかりませんが、ゴッホをはじめ、著名人の書簡のやりとりのヴィジュアライゼーションがみられるようになるなど、欧州の書簡のデータもかなり蓄積されつつあるようです。たとえば、アイルランドで書簡のクラウドソーシング翻刻を進めているLetters of 1916プロジェクトでは、クラウドソーシングサイトでTEIを簡単に使えるようにしているようです。

　基本的に、TEIは、テキストデータをマークアップする（画像とのリンクも含む）ものであり、現在は主にXMLが用いられています。マークアップと言っても、ただマークアップするだけでは共有がうまくできませんので、マークアップのタグ（エレメント）の種類や属性を定義するとともに、それらがどういう関係において利用できるか、ということも決めています。決められた内容は、スキーマ（DTD、RelaxNG等で記述される）として配布されていますので、これをXMLエディターに読み込ませれば、入力者はいちいち定義ファイルを見なくてもマークアップの作業がある程度はできるようになります。

　ちょっと技術的な込み入った話に入ってしまいましたが、少し戻りますと、全文テキストデータというものがあったとして、それをデジタルアーカイブに載せて公開しようと思ったなら、ベタなプレーンテキストだけを公開する、ということはあまりないと思います。画像とリンクさせたり、注釈をつけてみたり、登場する人名をクリックしてその人についての説明が表示されるようにしてみたり、イニシャルや別名だったとしても、対応する人物の説明がきちんと表示されるようにしてみたり、地名をクリックすると地図が表示されたり…。

　あるいは、書誌情報をなるべく詳しく書きたい、目録情報の記述そのものはいじらずに、しかし検索しやすくしたい（過去記事を参照）、といったニーズもあるでしょう。

　今時は、自動処理的な感じでなんとかならないか、と、つい考えてしまいがちですが、自動処理ではそういった情報の扱いはそれほど正確ではなく、ある程度信頼性のある情報提供をしようとした場合、人が見て手で直すという作業が入ってしまいがちです。さて、ここで問題にしたいのは、この、人が見て手で直したデータなのです。

　人が見て手で直したデータ、それは何らかのフォーマットで作られ、公開用システムに読み込ませて、Webブラウザなどに表示されることになります。公開時点では、頑張って作って、見えるようになってよかったよかった、ということになるのですが、この公開用システムは、やがて必ず更新の時期を迎えます。ここで、新しいシステムが今までのシステムと十分に互換性がない場合、データを作り直さなければ同じサービスは提供できない、ということになります。この点は、前回のデジタルアーカイブのブームから続けてらっしゃる方々はよくご存じかと思いますが、システム更新がうまくいかずに消えてしまったサービスは少なくないようです。

　更新のたびにデータをほぼ一から作り直すか、そうでなければサービスを停止するか、ということになってしまっては、デジタルアーカイブのコストは高止まりのままです。その仕事の専門性が高ければ高いほど、コストが高くなるだけでなく、貴重な専門家の仕事も消失することになってしまいます。その社会的コストは目立たないかもしれませんが多大なものがあります。しかも、より重要なのは、同じような仕事、つまり、人名を対応づけたり地図の絵を差し挟んだりするようなものを紙の書籍などで作った場合、とりあえず国立国会図書館に納本しておけばずっと残るはずなのです。

　そこで出てくるのがTEIの役割なのですが、こういう場合に、まずTEIに準拠する形でテキストデータ＋注釈等を作ってから、それを公開システムにあわせて変換する、という風にすると、公開用システムが変わったとしても、改めて新しいシステム用にデータを変換して提供すればよい、ということになります。また、この方法ですと、その時々の公開用システムの制約に引きずられることなく、必要な情報を一通り記述しておくことができますので、もし新しいシステムがよりリッチな表現に対応できるようになった場合には、それにあわせて変換することで、よりリッチなサービスをそれほど手間をかけることなく提供できるようになります。

　特に昨今は、このブログでもご紹介してきているように、IIIFで文化資料の画像を公開することが広まってきていますが、そうすると、これまでTEIに準拠しつつ画像とも関連付けられながら（TEIには画像内のテキストの位置情報を記述するルールがあります）作られてきたテキストデータがIIIFとリンクして公開されるようになってきています。特に今注目に値するのは、スコラ哲学のテキストデータベースでしょう。サイトのフッタにIIIFとTEIのアイコンが掲載されていることからも双方が活用されていることがみてとれますね。

　TEIには他にも色々なメリットがありますが、筆者としては、特にこの点、つまり、注釈等も含めたテキストデータをきちんと継承していけるという点に大きなメリットを感じています。MSワードでもできるのでは、とか、Epubはどうか、といった話もあろうかと思いますが、TEIの場合、特に、人文学、つまり、文化資料を研究対象として精密に扱おうとするためのルールが様々に用意されていますので、研究者にとって利便性が高く、また、デジタルアーカイブでは、研究者がよりきちんと活用できる形で文化資料を提供することが、デジタルアーカイブの世界を豊かにしていくと思っておりますので、そのような観点から、TEIはとても有益だと思っております。

　ということで、また、次の機会に、具体的なTEIの内容についてご紹介したいと思います。