2017-08-16

デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法

TEI

前回記事に続けてもう一つ、デジタルアーカイブにおけるテクスト資料の扱いについての記事です。

ここまで、このブログでTEIに関する話を読んできていただくと、「そんなに細かいタグを付けるのは大変だ」と思ってしまわれる人も結構おられるのではないかと思います。しかし、TEIでは、必ずしも細かく深いタグをつけていかねばならないというものではなく、浅いマークアップ（タグ付け）でもTEIであると言えますし、それでも一定の機能を果たすことはできます。

特に、こういったことについて関心があるのは、やはり図書館の方々のようです。デジタル化はするが、内容にあまり深入りすることははばかられる、あるいは、時間的コスト的に内容のタグ付けなどはさすがにちょっと無理、というような状況は、世界中のどこにでもあるようで、しかし、それでもテキストデータを書誌情報とともにうまく流通させるにはTEIを使っておくことが後々有益だろう、ということで、図書館の方々が中心となって、Best Practices for TEI in Libraries というガイドラインが作成されたようです。

ここでは、TEIでのマークアップのレベルを4つに分けています。それをラフに翻訳してみると、

Level 1: OCRで生成されたテクストデータ。ページ画像に紐付けられており、ページ画像なしで電子テクストとして単独で用いられることを意図したものではない。エンコーディング（タグ付け・マークアップ）は全文検索を補助するために行われる。

Level 2: OCRで生成されたテクストデータであり、ページ画像に紐付けられている。ただし、Level 1と異なり、テクストの領域や見出しなどはきちんとマークアップされている。

Level 3: テクストデータは、OCRか手入力のいずれかによって作成されている。テクストの構造がある程度マークアップされており、ページ画像はなくても利用できるものもある。

Level 4: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、学生や研究者、一般の読者が読むにあたり、ページ画像がなくてもテクストデータだけで利用可能なもの。

Level5: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、Level 4と同様に、ページ画像がなくても利用可能なものである。それに加えて、専門知識を持った担当者による人手での充実したタグ付けが行われたもの。

という感じのようです。つまり、筆者があれこれ書いてきているTEIの利用法のほとんどは、Level 5 の話であって、そうではないマークアップの仕方もこのように色々考えられているということです。具体的にどうマークアップするか、ということは、事例が色々と上記のページに載っていますので、まずはそちらをご覧ください。

　また、こうなってくると書誌情報をどうするのか、という話が気になりますが、上記のページの

4.1.6. Element and Attribute Recommendations for the TEI Header

というチャプターでは、MARCとTEIのタグとの対応付けの仕方が載っていますので、そちらをご覧ください。基本的に、MARCから自動変換できるのではないかと思います。

こうしておくと、何が良いのかと言えば、一つの資料（テクスト）単位でデータが流通した場合でも、メタデータをきちんと一緒に流通させられるということと、それから、修正した場合に修正した人がその修正に関する情報も機械可読な形で記述した上でさらに流通させられること、は、とりあえずすぐに思いつくメリットです。基本的に、TEIはデータの追記と処理がしやすいので、可用性の高さという観点から色々なメリットが出てくるだろうと思います。

　図書館等での内容にあまり踏み込まないデジタルアーカイブ公開の際に、OCRや翻刻をするなどしてテキストデータが何らかの形で付与され、それがオープンなライセンスの下で公開されることもあると思います。そのような場合に、このようにして上記のそれほど高くないLevelにて公開しておけば、手間をあまりかけずにデータの有用性を高めることができるのではないでしょうか。

ちなみに、日本での事例はどうなのかと言えば、もう3年ほど前になりますが、筆者が国会図書館デジタルコレクションの資料を共同翻刻するシステムを開発した際に、NDLのメタデータのごく基本的なものを抜き出して、翻刻したテクストデータとあわせて上記のLevel 2と3の間くらいのTEIマークアップファイルを生成できるようなものも作ってみております。

たとえば以下のテクストデータを

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562

以下のように変換してみています。なお、下記のページでは、レスポンスヘッダのContent-TypeをXMLにしていないのでソースファイルをご覧ください。

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562&format=teibp

まだ色々不十分な感じもありますので、今後さらに精進していかねばと思っておりますが、とりあえずこれだけでも、テキストデータと書誌情報、それから画像（のURL）を一定のルールで比較的容易に共有できますので、そこに有用性を感じていただくことはできるのではないかと思っております。

2017-08-16

デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報

TEI

　やや間が空いてしまいましたが、先日より何度かご紹介しているTEI (Text Encoding Initiative)に関するご紹介の続きです。

先週、カナダのモントリオールにて開催されたDigital Humaities 2017というカンファレンスで、TEIコミュニティが賞をもらいました。そこで受賞記念スピーチがあったのですが、1980年代終わりにTEIがどういう状況で生まれてどういうことを目指してきたか、ということが創始者達によって語られました。詳しくは別の機会にご紹介させていただきますが、ここで一つ、なるほど、と思ったのは、「全文テクストデータから書誌情報がなくなってしまうことがあるので<teiHeader>を取り決めた」という話でした。今はマークアップ言語の利用が普通ですから、たとえば青空文庫を見てみても、書誌情報がタグで記載されています。たとえば以下のような感じですね。

<div class="bibliographical_information">
<hr />
 
底本：「太宰治全集3」ちくま文庫、筑摩書房 
　　　1988（昭和63）年10月25日初版発行 
　　　1998（平成10）年6月15日第2刷 
底本の親本：「筑摩全集類聚版太宰治全集」筑摩書房 
　　　1975（昭和50）年6月～1976（昭和51）年6月 
入力：金川一之 
校正：高橋美奈子 
2000年12月4日公開 
2011年1月17日修正 
青空文庫作成ファイル： 
このファイルは、インターネットの図書館、<a href="http://www.aozora.gr.jp/">青空文庫（http://www.aozora.gr.jp/）</a>で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。 
 
 
</div>

今となってはごく普通にできることですが、マークアップ言語の利用がまだ一般的でなかった環境であれば、こういうことも難しかったでしょうから、きちんとタグを使って書誌情報をつけましょう、ということ自体も、TEIが登場してきた当時には、ルールとして重要だったのではないかと思われます。

また、それだけでなく、TEIでは、書誌情報の書き方も細かなルールを用意しています。古典籍に関しては、すでにこのブログで少しご紹介したことがありますが、青空文庫のような電子テクストに関してもTEIは様々なルールを提供してくれています。もちろん、必ずしもその細かなルールすべてを適用しなければならないというわけではありません。たとえば、上記のものを<teiHeader>で用意されているタグ（エレメント）を使って書いてみると、（ただし「底本の親本」をはしょっていますが）、以下のような感じになろうかと思います。

<teiHeader>
 <fileDesc>
 <titleStmt>
 <title>走れメロス</title>
 <author>太宰治</author>
 </titleStmt>
 <publicationStmt>
 <distributor>青空文庫</distributor>
 <authority>金川一之</authority>
 <authority>高橋美奈子</authority>
 <date when="2011-01-17"> 2011年1月17日</date>
 </publicationStmt>
 <sourceDesc>
 <bibl>
 <author>太宰治</author>
 <title>走れメロス</title>
 <publisher>筑摩書房</publisher>「太宰治全集3」ちくま文庫、
 <date when="1988-10-25">1988（昭和63）年10月25日</date>初版発行
 <date when="1998-06-15">1998（平成10）年6月15日</date>第2刷
 </bibl>
 </sourceDesc>
 </fileDesc>
 <revisionDesc>
 <list>
 <item>
 <date when="2011-01-17">2011年1月17日</date>修正 </item>
 <item> 入力<persName>金川一之</persName>校正<persName>高橋美奈子</persName>
 <date when="2000-12-04"> 2000年12月4日</date>作成 </item>
 </list>
 </revisionDesc>
 </teiHeader>

こうして記述しておくと、テクニカルには、より細かな情報を簡単に取り出すことができて便利だ、という話になります。たとえばLinked Open Dataなどをやっている方々におかれましては、こういうデータが大量に作られれば色々な活用ができそうだとうずうずしてしまわれるのではないかとも思うのですが（もちろん、TEI関係ではそういう研究・実践が様々に行われています）、もう一つ注目しておいていただきたいのは、「電子化の元になった資料の書誌情報」と「電子版の書誌情報（というかメタデータ？）」を別々に書けるようになっているという点です。デジタル化された元資料とデジタルデータをきちんと区別しつつ、それぞれに関して適切に情報提供しようという姿勢は、デジタル学術編集版（digital scholarly edition）を適切に学術の場で共有するにはどのようにすべきか、という議論のなかで生まれてきたものだと思われますが、デジタルアーカイブと元の資料の関係を考えていく上でも色々な示唆を与えてくれているような気がします。

2017-08-01

Mirador最新版に右⇒左ページ閲覧機能を追加しました

IIIF Mirador

Miradorの2017年6月版に右⇒左のページ閲覧機能を追加しました。要するに、日本や中国等の縦書き資料を、読む方向に（右から左）にあわせてページを閲覧できるようにする機能です。Miradorはこれができないのが東アジア文化圏にとってはちょっと残念なところなのですが、5月のスタンフォードでのシンポジウムで、この機能をきちんとつけないと東アジア文化圏での今後の展開には厳しいということを改めて主張して、今回こそは本家にマージしていただけるというお話をいただきました。ので、今度こそはと大きく期待しているところです。

こちらでMiradorに標準搭載されている『唐糸草紙』をご覧いただけば、ご確認いただけるかと思います。この『唐糸草紙』は翻刻もついていますので、以下のような感じになります。

f:id:digitalnagasaki:20170801193214j:plain

ページ下部のサムネイル一覧を確認すると、以下のように右から左に並んでいるのがわかると思います。

f:id:digitalnagasaki:20170801193243j:plain

サムネイルを一覧する表示モードもありますが、そちらでも、右から左に並んでいます。

f:id:digitalnagasaki:20170801193400j:plain

大体、こういう感じですので、東アジア文化圏の古典籍の一般的な利用にはこれでそれなりに使えるようになるのではないかと思います。

以下に、今回の改良版のMiradorのJavascriptも置いておきましたので、よかったら使ってみてください。

http://candra.dhii.jp/nagasaki/mirador201708rtl/mirador/build/mirador_rtl_201708.tgz

なお、この機能にコンテンツを対応させるためには、IIIF Manifestの中で、viewingDirectionの値を'right-to-left'と書いておかねばなりません。まだ一部のベンダーさんは対応できていないような感じですので、きちんと対応してくださいね。

ということで、今後ともよろしくお願いいたします。

2017-08-01

青空文庫の『走れメロス』をTEIで

TEI

前回・前々回に引き続き、TEIの話です。前回、ごく基本的なマークアップでもOKだということを少し書きましたが、それでは試しに、ということで、青空文庫の『走れメロス』をTEIにて書いてみました。それがこちらになります。

特に説明するようなことはあまりないのですが、TEIのタグ付けルールに従って、本文にパラグラフごとにタグをつけていっているのと、書誌情報のところで、青空文庫としての入力者情報や訂正情報などを書いています。これには、電子版としての位置づけをどう考えるかによって色々な書き方があり、これが正解というものはないようですので、最終的には電子版作成者の側でどうするかを決めることになります。今回は、上記のリンク先のXMLファイルに載っていることを改めて部分的に引用しますが、少し検討した結果、以下のようにしてみています。青空文庫のファイルのフッタの情報を抜き出して置き換えています。

<fileDesc>
 <titleStmt>
 <title>走れメロス</title>
 <author>太宰治</author>
 </titleStmt>
 <publicationStmt>
 <distributor>青空文庫</distributor>
 <authority>金川一之</authority>
 <authority>高橋美奈子</authority>
 <date when="2011-01-17"> 2011年1月17日</date>
 </publicationStmt>
 <sourceDesc>
 <bibl>
 <author>太宰治</author>
 <title>走れメロス</title>
 <publisher>筑摩書房</publisher>「太宰治全集3」ちくま文庫、
 <date when="1988-10-25">1988（昭和63）年10月25日</date>初版発行
 <date when="1998-06-15">1998（平成10）年6月15日</date>第2刷
 </bibl>
 </sourceDesc>
 </fileDesc>
 <revisionDesc>
 <list>
 <item>
 <date when="2011-01-17">2011年1月17日</date>修正 </item>
 <item> 入力金川一之校正高橋美奈子 <date when="2000-12-04"> 2000年12月4日</date>作成 </item>
 </list>
 </revisionDesc>
 </teiHeader>

これはもちろん、完全ではなくて、様々な情報に関して典拠情報などを参照することができます。典拠情報に関しては、基本的には、タグの属性として ref="典拠情報のURL"という風に書くことになるようです。

XMLの操作を知っている人ならこれだけでも一目瞭然だと思いますが、タグがついている情報に関しては、タグを指定した上でその内容を検索することができます。たとえば、入力者名を検索したいと思えば、TEI->teiHeader->fileDesc->publicationStmt->authorityの中を指定して検索することができます。あるいは、元になった本の刊行年を抜き出したければ、TEI->teiHeader->fileDesc->sourceDesc->bibl->dateで抜き出しできます。この事例では2つ<date>がありますが、この場合は、新しい方のみを抜き出せばよさそうです。

これは、検索するだけでなく、抜き出して統計処理をしたりするのにも使えます。抜き出したものをCSVファイルに書き出せば、エクセル等に読み込ませて処理することもできますね。

次に、本文を見てみますと、これはもう本当に単純です。パラグラフで区切っているだけです。しかし、これでもTEI準拠と言うことができますし、その意味が十分にあります。というのは、このTEI/XMLファイルを流通させることによって、どの文章が何番目のパラグラフにあって、さらに、パラグラフのなかの何番目の文字から始まる文章か、ということも共有できます。その場合、TEI->text->body->pという風に見ていきますが、ここではが複数（多数）存在するということになります。EPUB等で言えばリフロー型ということになると思いますが、それがより様々な発展の可能性を秘めた形で作成されていると考えていただくとよいのではないかと思います。

＜人名と発話をタグ付けしてみる＞

さて、これだけですとあまり面白くないので、もう少し話を進めたいと思います。

青空文庫には「ルビ」がありますね。そのルビはどこに行ったのか、という話がありますが、それは一応実現していますがかなり高度な話になってしまうので、少し先で御説明したいと思います。というのは、TEIガイドラインではルビのルールをまだ持っていないからです。これは現在、ルビのルールをTEIガイドラインに入れてもらうべく準備をしております。（それも含めて日本語の問題を十分に解決するために、昨年、TEI協会に東アジア／日本語分科会が設立されました。）もちろん、では全然日本語に対応できないのかといえばそうではなく、TEIではスキーマをカスタマイズするための手立ても用意しておりますので、スキーマをカスタマイズすることによってルビも実現可能です。ただ、その準備が少しややこしいので、まずはその前にできそうなことを少しみていきましょう。

とりあえず、人名と会話が色々出てくるので、それを整理してみたいと思います。この場合、人名については<persName></persName>というタグが用意されていて、corresp=""といった属性で人物名IDを与えることによって、略称などが出てきた場合でも統一的に処理できるようにしています。もちろん、これにはタグをつけた人の判断が入り込む余地があり、人によって判断が異なる場合もありますので、それを誰が行ったかということは本来きちんと残しておくべきです。それも、そういう書き方がいくつか用意されています。が、まだそこまでは踏み込みません。

ということで、用意してみたのがこちら（dazai_persName.xml）です。（このファイルを見てびっくりしないでいただきたいのですが、このように色々タグをつける場合には、普通のエディタだとちょっと難しく、XML Editorを使う必要があります。このブログでもご紹介したoXygen XML Editorがおすすめです。その使い方についても近々このブログでご紹介します。）

このなかで、たとえば、最後の方に

という記述があります。このような感じで、corresp="#メロス"となっているエレメントは、ファイルの最初の方に用意されている以下の<person xml:id="メロス"> ～</person>を参照していることになります。（XMLのルールとして、属性の値に「#」がついている場合は、同じファイル内で#以下の文字列のIDを持っているエレメント（タグとその内容）を指す、ということになっています。）

<person xml:id="メロス">

<persName>メロス</persName>
<occupation>牧人</occupation>

</person>

なお、このような<persName>のエレメント使い方は本来の使い方からはちょっと違っているかもしれないのですが、とりあえずどういう風に使えるかを示すための例ということでご容赦ください。

次に、dazai_persName.xmlの中で、<said who="#メロス">～</said>というタグを探してみてください。これは発話を表すタグで、ここでは「誰の発話か」を明確にするためのwhoという属性が使えることになっています。ここでも、「#メロス」となっていますので、やはり、「メロス」というxml:idを持つエレメントを参照する、ということになります。TEIは、このXMLのID参照機能を活用して利便性を高めています。

　さて、このようにしてタグをつけていくと、どの発話が誰によるものか、ということをきちんと残すことができるようになります。そんなものはAIでできるようになるからよいのではないか、と思う人も最近は多いと思いますが、基本的に、コンピュータ処理ではわからない部分をどうするかということは常に課題であり、分量がそれほど多くない場合はむしろ人手でやってしまった方がよく、人手で作業する場合にはなるべく共通フォーマットにしておいた方が色々と後々安全である、ということで、TEIに落ち着くのが一つの有力な手段になるようです。

　これだけでもかなり大変そうですが、このようにしてタグを付けたとして、付けたらそれで終わりなのか…というわけにもいきません。そこで、試しにこういうものを作ってみました。このページの「ファイル選択」ボタンを押して、先ほどのdazai_persName.xmlを選択して開くと、（あるいはそのファイルをこのボタンにドラッグすると）、このファイルを開くとともに、発話のところを茶色にしたり、人名を靑色にしたりしています。そして、人名をクリックすると、その人名の発話内容と呼称が右側のウインドウにリストされます。たとえば以下のような感じです。

f:id:digitalnagasaki:20170801035744p:plain

ここら辺の技術をわかっている人には当たり前すぎる話で恐縮ですが、とりあえず、あくまでも一つの利用例として、このようなことができるということで提示しております。基本的に、TEI/XMLで肝心なのは、「一つ書いておけば色々な形で活用できる」ということです。たとえば、セリヌンティウスの発話だけを取り出して何かと比較したい、と思ったときなど、これを利用すればいちいちコピペなどせずとも割と簡単に抜き出せます。あるいは、太宰作品における発話をすべて拾い出して傾向を見たい、と思ったときなどは、<said>～</said>を全部抜き出すことになるでしょう。もし、他の太宰作品もすべて<said>～</said>タグがついていたなら、それは割と簡単に実現できますし、それがたとえば青空文庫の本すべてに行われていたらさらに幅は広がります。発話だけなら、鉤括弧を探せば大体みつかるかもしれませんが、鉤括弧に囲まれていない発話もある場合には、やはりこのようにしてタグで発話であるとつけておくことが後々有益でしょうし、そこに誰の発話かということももし記述しておくことができれば、もっと有益になるでしょう。

　とりあえず、固有名詞やそれに類する言葉の扱いは、比較的わかりやすい例かもしれないと思いまして、挙げさせていただきました。他にも、辞書や校訂テクスト、コーパス、そして、「ルビ」など、色々ありますので、徐々に採り上げていきたいと思います。今後ともよろしくお願いいたします。

2017-07-31

TEIへの取り組み方

TEI

　TEIに取り組むには、一人で取り組むか、プロジェクトとして複数人で取り組むか、という二つのやり方があります。一人で取り組む場合には、とにかく自分で頑張ってみればいいのですが、プロジェクトとして複数人で取り組む場合には、まず、役割分担をする必要があります。「TEIで用意されているタグ（エレメント・アトリビュート）のうち、どれをどう使うか」ということを決めるという役割と、それに従ってマークアップをしていく役割をわけておかねばなりません。これは文化資料に関わる他の規格の多くも同様かもしれないと思いますが、用意されているルールセットをすべてきちんと提供しようとしたら、いくら時間があっても足りません。特にTEIの場合、個々の単語の品詞や原形の情報やら画像の該当箇所とのリンク、校訂情報、来歴情報を含む詳細な書誌情報等々、500を超えるタグが用意されていますので、用途とかけられる時間等に応じて利用するタグを取捨選択する必要があります。

　TEIでは、用途にあわせたタグのモジュール化が行われており、言語学、辞書、書誌学、校訂テクストなど、必要に応じてタグをまとめて取捨選択できるようになっています。また、簡易なタグセットとしてTEI Liteというものも用意されています。さらに、マークアップの深さをレベルとして設定して、かけられるコストに応じてレベルを選択するという考え方を採る Best Practices for TEI in Libraries というサブセットも用意されています。たとえば、一番浅いレベル1では、本文の箇所は単にOCRの結果のテキストデータと画像ファイルをリンクしているだけです。特に図書館でTEIを採用する場合には適しているものだろうと思います。

　ということで、まず、プロジェクトの誰かが「どのタグをどのように使うか」ということを決めなければなりません。これを決める際には、TEIのタグの階層関係にも配慮しながら検討しなければなりません。ここで有益なのが oXygen XML Editor です。これは残念ながら商用ソフトなのですが、TEIのスキーマが最初からインストールされていて、TEIを扱うには大変便利です。30日間のトライアルでフル機能を試せますので、TEIに取り組んでみようと思ったら、まずは使ってみていただきたいところです。oXygen は、TEIの進展にあわせて発展してきたようなソフトウェアであり、画像とテキストをTEIのルールでリンクさせる記述をするためのプラグインも提供されているというなかなかの優れものです。このoXygenでタグの階層関係を確認しながら「どのタグをどのように使うか」を決めていくのが比較的やりやすいものと思われます。それが決まれば、他の人は、それにしたがってマークアップをしていくことになります。もちろん、プロジェクトの皆で民主的にルールを決めていくことも有益です。ただ、その場合、皆でTEIについてそれなりに深く学びながら進めて行かねばならないので、意義は深いですが、コスト的にはちょっと検討が必要かと思います。

　さて、ここでは、「どのタグをどのように使うか」ということを考える立場からTEIについて見ていきたいと思います。

　まず、そのテキストデータはどういう人たちによって使われるのか、どれくらい安定したものを提供する必要があるのか、ということを検討する必要があります。もし、用途をまったく限定せずになるべく誰にでも使えるようにすることをひたすら追究するのであれば、ごく簡素なマークアップのみでもよいでしょう。この場合、たとえば以下のような感じでもよいかもしれません。

<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
 <fileDesc>
 <titleStmt>
 <title>タイトル</title>
 </titleStmt>
 <publicationStmt>
 出版に関する情報
 </publicationStmt>
 <sourceDesc>
 元資料に関する情報
 </sourceDesc>
 </fileDesc>
</teiHeader>
<text>
 <body>
 ここに本文
 </body>
</text>
</TEI>

書誌情報に関しては、<fileDesc>～</fileDesc>のところに色々と書いていくことになりますが、既存データがあって、かつ量が多ければ自動変換でやってしまった方がよいでしょう。あとは、本文ですが、単純に、～で段落を記述していくだけでもよいのです。

ただ、これだけだとどうも物足りない、あるいは、プロジェクトの目的からするとこれだけでは十分でない、という場合には、用途に応じて様々なタグが用意されています。次回以降は、それらについて少しずつご紹介していきたいと思います。

2017-07-31

「デジタルアーカイブ」で全文テキストデータをうまく継承していくには

TEI

　デジタルアーカイブ学会が設立されて第一回の学術大会が開催され、ジャパンサーチ（仮称）がその姿をみせつつあるなど、デジタルアーカイブが再び脚光を浴びつつあります。しかしながら、我が国ではデジタルアーカイブは以前にもブームになったことがあります。そのときに作ったものはどこに行ってしまったのか、ということも議論されるべきだろうとは思いますが、とりあえず、まず考えるべきことは、これから作ろうとするものが、今度こそはどこかに行ってしまわずに、きちんと、できる限り継承されていくことだろうと思います。そこを踏まえた上で、過去を振り返ることも余裕があればやってみるとよいだろうと思っております。やや狭い範囲ですが、私もかつて過去のデジタルアーカイブの営みについての調査をしたことがありました。

　さて、「デジタルアーカイブをできる限り継承する」ことについての一般的な話については、この間、依頼をいただいたので原稿を書いたところです。これは、9月に京都で開催されるデジタルアーカイブサミットで配布されると同時にネットでも公開されるそうですので、そちらをご覧ください。要するに、できる限り継承するためにはなるべく標準的な規格にあわせてデータを作る必要があり、再配布可能なライセンスで公開することとあわせれば、何らかの形で維持していけるだろう、ということを書いております。ただ、そのなかでは、個々の標準的な規格については特に深く言及してはいません。そこで、特に日本語での解説が手薄な、TEI (Text Encoding Initiative) に関する話を、このブログにて数回にわけてご紹介していきたいと思います。

　TEI (Text Encodnig Initiative) という呼称は割と広く使われていますが、正確に言えば、TEI協会がTEIガイドラインを作成して、テキストデータの共有に関して共有すべき事柄を提示する、という形になっています。そのいずれもがTEIと呼ばれることがあります。

　TEIは、1987年から欧米で作られてきているテキストデータを効率的効果的に共有するためのガイドラインです。主に、人文学者と情報工学者、図書館情報学者、専門司書といった人々が集まって作っている規格であり、人文学での活用を特に念頭に置いています。いわゆるコミュニティ駆動型の規格になっており、技術の発展とコミュニティの拡大にあわせて、適用範囲を広げてきています。たとえば数年前は、書簡のメタデータに関する議論が流行し、分科会もなかなか盛り上がっていました。TEI自体がどれくらい貢献しているのかはわかりませんが、ゴッホをはじめ、著名人の書簡のやりとりのヴィジュアライゼーションがみられるようになるなど、欧州の書簡のデータもかなり蓄積されつつあるようです。たとえば、アイルランドで書簡のクラウドソーシング翻刻を進めているLetters of 1916プロジェクトでは、クラウドソーシングサイトでTEIを簡単に使えるようにしているようです。

　基本的に、TEIは、テキストデータをマークアップする（画像とのリンクも含む）ものであり、現在は主にXMLが用いられています。マークアップと言っても、ただマークアップするだけでは共有がうまくできませんので、マークアップのタグ（エレメント）の種類や属性を定義するとともに、それらがどういう関係において利用できるか、ということも決めています。決められた内容は、スキーマ（DTD、RelaxNG等で記述される）として配布されていますので、これをXMLエディターに読み込ませれば、入力者はいちいち定義ファイルを見なくてもマークアップの作業がある程度はできるようになります。

　ちょっと技術的な込み入った話に入ってしまいましたが、少し戻りますと、全文テキストデータというものがあったとして、それをデジタルアーカイブに載せて公開しようと思ったなら、ベタなプレーンテキストだけを公開する、ということはあまりないと思います。画像とリンクさせたり、注釈をつけてみたり、登場する人名をクリックしてその人についての説明が表示されるようにしてみたり、イニシャルや別名だったとしても、対応する人物の説明がきちんと表示されるようにしてみたり、地名をクリックすると地図が表示されたり…。

　あるいは、書誌情報をなるべく詳しく書きたい、目録情報の記述そのものはいじらずに、しかし検索しやすくしたい（過去記事を参照）、といったニーズもあるでしょう。

　今時は、自動処理的な感じでなんとかならないか、と、つい考えてしまいがちですが、自動処理ではそういった情報の扱いはそれほど正確ではなく、ある程度信頼性のある情報提供をしようとした場合、人が見て手で直すという作業が入ってしまいがちです。さて、ここで問題にしたいのは、この、人が見て手で直したデータなのです。

　人が見て手で直したデータ、それは何らかのフォーマットで作られ、公開用システムに読み込ませて、Webブラウザなどに表示されることになります。公開時点では、頑張って作って、見えるようになってよかったよかった、ということになるのですが、この公開用システムは、やがて必ず更新の時期を迎えます。ここで、新しいシステムが今までのシステムと十分に互換性がない場合、データを作り直さなければ同じサービスは提供できない、ということになります。この点は、前回のデジタルアーカイブのブームから続けてらっしゃる方々はよくご存じかと思いますが、システム更新がうまくいかずに消えてしまったサービスは少なくないようです。

　更新のたびにデータをほぼ一から作り直すか、そうでなければサービスを停止するか、ということになってしまっては、デジタルアーカイブのコストは高止まりのままです。その仕事の専門性が高ければ高いほど、コストが高くなるだけでなく、貴重な専門家の仕事も消失することになってしまいます。その社会的コストは目立たないかもしれませんが多大なものがあります。しかも、より重要なのは、同じような仕事、つまり、人名を対応づけたり地図の絵を差し挟んだりするようなものを紙の書籍などで作った場合、とりあえず国立国会図書館に納本しておけばずっと残るはずなのです。

　そこで出てくるのがTEIの役割なのですが、こういう場合に、まずTEIに準拠する形でテキストデータ＋注釈等を作ってから、それを公開システムにあわせて変換する、という風にすると、公開用システムが変わったとしても、改めて新しいシステム用にデータを変換して提供すればよい、ということになります。また、この方法ですと、その時々の公開用システムの制約に引きずられることなく、必要な情報を一通り記述しておくことができますので、もし新しいシステムがよりリッチな表現に対応できるようになった場合には、それにあわせて変換することで、よりリッチなサービスをそれほど手間をかけることなく提供できるようになります。

　特に昨今は、このブログでもご紹介してきているように、IIIFで文化資料の画像を公開することが広まってきていますが、そうすると、これまでTEIに準拠しつつ画像とも関連付けられながら（TEIには画像内のテキストの位置情報を記述するルールがあります）作られてきたテキストデータがIIIFとリンクして公開されるようになってきています。特に今注目に値するのは、スコラ哲学のテキストデータベースでしょう。サイトのフッタにIIIFとTEIのアイコンが掲載されていることからも双方が活用されていることがみてとれますね。

　TEIには他にも色々なメリットがありますが、筆者としては、特にこの点、つまり、注釈等も含めたテキストデータをきちんと継承していけるという点に大きなメリットを感じています。MSワードでもできるのでは、とか、Epubはどうか、といった話もあろうかと思いますが、TEIの場合、特に、人文学、つまり、文化資料を研究対象として精密に扱おうとするためのルールが様々に用意されていますので、研究者にとって利便性が高く、また、デジタルアーカイブでは、研究者がよりきちんと活用できる形で文化資料を提供することが、デジタルアーカイブの世界を豊かにしていくと思っておりますので、そのような観点から、TEIはとても有益だと思っております。

　ということで、また、次の機会に、具体的なTEIの内容についてご紹介したいと思います。

2017-07-18

二つの百鬼夜行絵巻をIIIF - Miradorで並べてみてみましょう。

IIIF Mirador IIIF応用

前回と前々回の記事の続きです。

百鬼夜行絵巻のつながり方についての議論を少し前に山田奨治先生からおうかがいしたこともあり、国デコ（国立国会図書館デジタルコレクション）に百鬼夜行絵巻が二つ入っていることは以前から気になっていました。これも並べて見たらどうなるんだろう、という素人の関心に過ぎませんが、絵柄が面白いということもあり、なんとかしたいとずっと思っていたのでした。

色々なご縁で作業効率を上げることになり、ようやく一つできたのですが、そうすると、もう一つもささっとやってしまいたくなるものです。そこで、できたのが以下のURLです。

http://candra.dhii.jp/nagasaki/mirador201706/mirador/hyakki2.html

（2つの百鬼夜行絵巻を比較できるビュー）

f:id:digitalnagasaki:20170718041658j:plain

ただし、このURLにアクセスするだけでは使い方がよくわからないかもしれません。現状では、少しお作法が必要になります。以下の手順を見てから挑戦してみてください。（特に、以下の手順4. のタイミングが重要です）

1．まず、上記のURLにアクセスすると以下のような頁が開くはずです。ここで、二つのウインドウ用にそれぞれアイテムを選択する必要があります。上から一つずつやっていきましょう。

f:id:digitalnagasaki:20170718041746j:plain

2．「アイテム追加」をクリックすると、以下のような画面になります。まずは上の方をクリックして選択してみましょう。そうすると・・・

f:id:digitalnagasaki:20170718041823j:plain

3．以下のような画面になります。ここではまだ画像表示はされません。もう一つ、下のウインドウの方も同様にしてアイテム追加をしてください。今度は下の方のアイテムを選んでください。

f:id:digitalnagasaki:20170718041915j:plain

4．そうすると、以下のような画面になります。ここで、画面左上の「絵巻の全画像を表示」ボタンをクリックしてください。そうすると・・・

f:id:digitalnagasaki:20170718041943j:plain

5．以下のような画面になるはずです。ここでは、それぞれの画像をするすると動かしたり拡大縮小したりできます。色々試してみてください。

f:id:digitalnagasaki:20170718042008j:plain

f:id:digitalnagasaki:20170718041658j:plain

f:id:digitalnagasaki:20170718042105j:plain

6．なお、左側のサイドパネルを非表示にすることもできます。そうすると以下のようにすっきり見えますね。

f:id:digitalnagasaki:20170718045203j:plain

たったこれだけなのですが、今まで簡単ではなかった色々なことが、IIIFという規格に準拠することによって、割と簡単に、フリーソフトウェアを組み合わせることで実現できるようになりつつあります。まだ少し面倒な手順が残っていますが、それも徐々に改善されていくと思われます。

なお、この頁にいきなり来てしまった人は、なんだかよくわからない、と思われるかもしれません。すでにそういうサービスがあるのに、と思う人もいらっしゃると思います。

　この話は、バラバラに分割されて公開されている画像を、ビューワ上で統合的して閲覧できるという話であり、そして、それを実現するためにはIIIFという国際的に大きく広まりつつある規格に準拠して公開すればよいという話です。

　まず、基本的に、国際的に広まっている規格があれば、それに乗っておいた方が後々良い展開になるという傾向が最近ますます強まっています。しかしそれだけでなく、この事例の場合には、大きな画像を1つにまとめてから公開するのはハードウェア的にも人的コストとしてもかなり大変ですが、分割画像を公開してからWebブラウザで表示する際に統合するという方法ですと、そういったコストが多少なりとも（あるいはかなり？）節減できるかもしれない、という期待もあります。そのようなことを考えて、前々回からの一連のブログ記事を作成してみています。

　詳しくは、このブログの前回・前々回の記事や、IIIFという規格の紹介記事（ただし、1年前の記事です）などを読んでみていただけますと幸いです。