「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました

このところ、IIIFの紹介に時間をかけてきましたが、今回は、もう一段深く資料を扱うための規格についてのご紹介です。

先にポイントだけ書いておきますと、まさにタイトルの通りです。もう少しかみ砕いて申しますと、人文学資料の中でも、特にテクスト資料に関しては、電子テクストというのがずいぶん前から使われてきています。電子テクストの場合、何はともあれ、皆が同じフォーマットで作った方が何かと便利です。そのためのルールが欧米を中心として1980年代から形成されてきていて、今やデファクト標準化しています。「デジタルアーカイブ」でも翻刻テクストをつけておこうと思ったりした場合、やはりこのルールに乗っておくのが後々何かと便利です。デジタル・ヒューマニティーズ分野の基幹技術の一つであり、Methodological Commons(方法論の共有地)を体現したものであるとも言えます。

 

このルールは、IIIFがそうであるように、すべてに完全適用できるものではなく、また、工業標準のように完全に確定したものでもありません。このテーマに取り組むコミュニティが形成されていて、その中で、全体に矛盾が生じないようにしつつ、様々なテーマに対応できるようなルールの拡張が続けられてきています。今もなお、新たにもたらされたテーマに対応すべく拡張が行われています。TEIについては、いくつか記事を書いたことがありますので、よかったら下記のURLなどをご参照ください。

TEIとoXygenの初歩 | Digital Humanities notes in Japan

http://nlp.nii.ac.jp/tawc/papers/W05_nagasaki.pdf

しかしながら、日本語資料への対応は未だ十分ではありません。これは、このコミュニティに参加する日本人が少なかったことが直接の大きな理由なのですが、なぜ参加する日本人が少なかったのか、ということを突き詰めていくと、あちらとこちらの課題がそれぞれ見えてきます。それについてはまた別に書くとしまして、長い議論の結果、日本語資料に対応するための環境を整備する分科会(Special Interest Group, SIG)を作ることになりました。TEI協会のWebサイト内にも、下記のように、この分科会がリストされ、これから本格的に始動することになります。なお、分科会の名称がEast Asian/Japanese、となっているのは、日本のテクスト資料が漢字文化圏の伝統と不可分であり、それを追究していくことが同時に東アジア全体のテクストの扱いともかなり重なってくるため、このような名称が今後の広がりを考える上で有益だろう、という判断が背景にあります。

TEI: Special Interest Groups (SIGs)

TEI: East Asian/Japanese SIG

これに関して画期的なのは、これまで特定の言語文化名を冠した分科会を作ったことはなかったので、ついにそこに踏み込むことができたという点でしょう。昨今の日本での「デジタルアーカイブ」の流れにおいても、この機会を最大限活かしていただけたらと思っています。

 

さて、この分科会での当初の課題は2点です。一つは、日本語に資料に対してこのTEIを適用する場合の、取り組みやすいガイドラインを作成することです。そして、もう一つは、そのガイドラインを作成していくなかでどうしても全体のルールに拡張が必要であるということになった場合に、それを行うことです。特に後者は、それを行うにあたってまずは分科会を作ることがTEIコンソーシアムの慣例の一つなので、そこに向けた第一歩を踏むことができた、ということもできるでしょう。

 

それから、これまで何度かご紹介してきたIIIFとの関係はどうなっているのかというと、翻刻(テキスト起こし)のところで深くつながっています。すでに結構盛り上がっていまして、IIIFで翻刻タグをつけることができますが、これをどういう風にTEIで表現するか、あるいは、TEIで書かれたものをどのようにIIIFで表現するか、といったことについての取組みが世界各地で始まっています。日本語資料の場合、どちらかと言えばテキスト構築よりも画像化してデータベースを作る方向に力を入れる傾向が強かったように思いますので、IIIFからTEI、つまり、画像に翻刻情報をつけていくところからテクストの構造化の議論に入っていくようにするのが一つの手なのではなかろうかとも思っています。

 

いずれにしましても、特にテクストを扱っておられる方々におかれましては、この機をうまく活用していっていただけたらと思っております。近々、これに関する会合を予定しておりますので、今後ともよろしくお願いいたします。