デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報

 やや間が空いてしまいましたが、先日より何度かご紹介しているTEI (Text Encoding Initiative)に関するご紹介の続きです。

 先週、カナダのモントリオールにて開催されたDigital Humaities 2017というカンファレンスで、TEIコミュニティが賞をもらいました。そこで受賞記念スピーチがあったのですが、1980年代終わりにTEIがどういう状況で生まれてどういうことを目指してきたか、ということが創始者達によって語られました。詳しくは別の機会にご紹介させていただきますが、ここで一つ、なるほど、と思ったのは、「全文テクストデータから書誌情報がなくなってしまうことがあるので<teiHeader>を取り決めた」という話でした。今はマークアップ言語の利用が普通ですから、たとえば青空文庫を見てみても、書誌情報がタグで記載されています。たとえば以下のような感じですね。

 

<div class="bibliographical_information">
<hr />
<br />
底本:「太宰治全集3」ちくま文庫筑摩書房<br />
   1988(昭和63)年10月25日初版発行<br />
   1998(平成10)年6月15日第2刷<br />
底本の親本:「筑摩全集類聚版太宰治全集」筑摩書房<br />
   1975(昭和50)年6月~1976(昭和51)年6月<br />
入力:金川一之<br />
校正:高橋美奈子<br />
2000年12月4日公開<br />
2011年1月17日修正<br />
青空文庫作成ファイル:<br />
このファイルは、インターネットの図書館、<a href="http://www.aozora.gr.jp/">青空文庫http://www.aozora.gr.jp/)</a>で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。<br />
<br />
<br />
</div>

 

今となってはごく普通にできることですが、マークアップ言語の利用がまだ一般的でなかった環境であれば、こういうことも難しかったでしょうから、きちんとタグを使って書誌情報をつけましょう、ということ自体も、TEIが登場してきた当時には、ルールとして重要だったのではないかと思われます。

 また、それだけでなく、TEIでは、書誌情報の書き方も細かなルールを用意しています。古典籍に関しては、すでにこのブログで少しご紹介したことがありますが、青空文庫のような電子テクストに関してもTEIは様々なルールを提供してくれています。もちろん、必ずしもその細かなルールすべてを適用しなければならないというわけではありません。たとえば、上記のものを<teiHeader>で用意されているタグ(エレメント)を使って書いてみると、(ただし「底本の親本」をはしょっていますが)、以下のような感じになろうかと思います。

      <teiHeader>
            <fileDesc>
                  <titleStmt>
                        <title>走れメロス</title>
                        <author>太宰治</author>
                  </titleStmt>
                  <publicationStmt>
                        <distributor>青空文庫</distributor>
                        <authority>金川一之</authority>
                        <authority>高橋美奈子</authority>
                        <date when="2011-01-17"> 2011年1月17日</date>
                  </publicationStmt>
                  <sourceDesc>
                        <bibl>
                              <author>太宰治</author>
                              <title>走れメロス</title>
                              <publisher>筑摩書房</publisher>「太宰治全集3」ちくま文庫
                              <date when="1988-10-25">1988(昭和63)年10月25日</date>初版発行
                              <date when="1998-06-15">1998(平成10)年6月15日</date>第2刷
                        </bibl>
                  </sourceDesc>
            </fileDesc>
            <revisionDesc>
                  <list>
                        <item>
                              <date when="2011-01-17">2011年1月17日</date>修正 </item>
                        <item> 入力<persName>金川一之</persName>校正<persName>高橋美奈子</persName>
                              <date when="2000-12-04"> 2000年12月4日</date>作成 </item>
                  </list>
            </revisionDesc>
      </teiHeader>

 

こうして記述しておくと、テクニカルには、より細かな情報を簡単に取り出すことができて便利だ、という話になります。たとえばLinked Open Dataなどをやっている方々におかれましては、こういうデータが大量に作られれば色々な活用ができそうだとうずうずしてしまわれるのではないかとも思うのですが(もちろん、TEI関係ではそういう研究・実践が様々に行われています)、もう一つ注目しておいていただきたいのは、「電子化の元になった資料の書誌情報」と「電子版の書誌情報(というかメタデータ?)」を別々に書けるようになっているという点です。デジタル化された元資料とデジタルデータをきちんと区別しつつ、それぞれに関して適切に情報提供しようという姿勢は、デジタル学術編集版(digital scholarly edition)を適切に学術の場で共有するにはどのようにすべきか、という議論のなかで生まれてきたものだと思われますが、デジタルアーカイブと元の資料の関係を考えていく上でも色々な示唆を与えてくれているような気がします。