TEIへの取り組み方

 TEIに取り組むには、一人で取り組むか、プロジェクトとして複数人で取り組むか、という二つのやり方があります。一人で取り組む場合には、とにかく自分で頑張ってみればいいのですが、プロジェクトとして複数人で取り組む場合には、まず、役割分担をする必要があります。「TEIで用意されているタグ(エレメント・アトリビュート)のうち、どれをどう使うか」ということを決めるという役割と、それに従ってマークアップをしていく役割をわけておかねばなりません。これは文化資料に関わる他の規格の多くも同様かもしれないと思いますが、用意されているルールセットをすべてきちんと提供しようとしたら、いくら時間があっても足りません。特にTEIの場合、個々の単語の品詞や原形の情報やら画像の該当箇所とのリンク、校訂情報、来歴情報を含む詳細な書誌情報等々、500を超えるタグが用意されていますので、用途とかけられる時間等に応じて利用するタグを取捨選択する必要があります。

 TEIでは、用途にあわせたタグのモジュール化が行われており、言語学、辞書、書誌学、校訂テクストなど、必要に応じてタグをまとめて取捨選択できるようになっています。また、簡易なタグセットとしてTEI Liteというものも用意されています。さらに、マークアップの深さをレベルとして設定して、かけられるコストに応じてレベルを選択するという考え方を採る Best Practices for TEI in Libraries というサブセットも用意されています。たとえば、一番浅いレベル1では、本文の箇所は単にOCRの結果のテキストデータと画像ファイルをリンクしているだけです。特に図書館でTEIを採用する場合には適しているものだろうと思います。

 ということで、まず、プロジェクトの誰かが「どのタグをどのように使うか」ということを決めなければなりません。これを決める際には、TEIのタグの階層関係にも配慮しながら検討しなければなりません。ここで有益なのが oXygen XML Editor です。これは残念ながら商用ソフトなのですが、TEIのスキーマが最初からインストールされていて、TEIを扱うには大変便利です。30日間のトライアルでフル機能を試せますので、TEIに取り組んでみようと思ったら、まずは使ってみていただきたいところです。oXygen は、TEIの進展にあわせて発展してきたようなソフトウェアであり、画像とテキストをTEIのルールでリンクさせる記述をするためのプラグインも提供されているというなかなかの優れものです。このoXygenでタグの階層関係を確認しながら「どのタグをどのように使うか」を決めていくのが比較的やりやすいものと思われます。それが決まれば、他の人は、それにしたがってマークアップをしていくことになります。もちろん、プロジェクトの皆で民主的にルールを決めていくことも有益です。ただ、その場合、皆でTEIについてそれなりに深く学びながら進めて行かねばならないので、意義は深いですが、コスト的にはちょっと検討が必要かと思います。

 さて、ここでは、「どのタグをどのように使うか」ということを考える立場からTEIについて見ていきたいと思います。

 まず、そのテキストデータはどういう人たちによって使われるのか、どれくらい安定したものを提供する必要があるのか、ということを検討する必要があります。もし、用途をまったく限定せずになるべく誰にでも使えるようにすることをひたすら追究するのであれば、ごく簡素なマークアップのみでもよいでしょう。この場合、たとえば以下のような感じでもよいかもしれません。

 

<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>タイトル</title>
         </titleStmt>
         <publicationStmt>
            <p>出版に関する情報</p>
         </publicationStmt>
         <sourceDesc>
            <p>元資料に関する情報</p>
         </sourceDesc>
      </fileDesc>
  </teiHeader>
  <text>
      <body>
         <p>ここに本文</p>
      </body>
  </text>
</TEI>

 

書誌情報に関しては、<fileDesc>~</fileDesc>のところに色々と書いていくことになりますが、既存データがあって、かつ量が多ければ自動変換でやってしまった方がよいでしょう。あとは、本文ですが、単純に、<p>~</p>で段落を記述していくだけでもよいのです。

 

ただ、これだけだとどうも物足りない、あるいは、プロジェクトの目的からするとこれだけでは十分でない、という場合には、用途に応じて様々なタグが用意されています。次回以降は、それらについて少しずつご紹介していきたいと思います。