2017-09-09

京大附属図書館IIIF対応と新日本古典籍総合データベースの右⇒左対応

IIIF Mirador IIIF応用

ついに、待ちに待っていた京都大学附属図書館からのIIIF対応デジタルコレクションが公開されたようです。「京大貴重資料デジタルアーカイブ」だそうです。素晴らしいことです。

　京都大学附属図書館は、東京大学大学院人文社会系研究科人文情報学拠点に続いて、日本からIIIFコンソーシアムに加盟した、まだ日本には2つしかない組織の一つであり、筆者としては、ここからのIIIF対応コンテンツの公開を心待ちにしていたのでした。多様な資料がIIIF対応で公開されていて、見ているとなかなか楽しいものですね。私の好きな南瞻部洲万国掌菓之図も公開されていて、ちょっとテンションがあがります。コンテンツの豊富さもさることながら、公開に際しては、MiradorとUniversal Viewerという、IIIF対応の二大ビューワのどちらにも対応している上にIIIF Dropアイコンも用意してらっしゃるので、至れり尽くせりの対応ですね。

さて、さっそく、他機関の画像とも対比してみようかと、こちらの宇津保物語を国文学研究資料館の新日本古典籍総合データベースの宇津保物語をちょっと並べてみました。

f:id:digitalnagasaki:20170909021419j:plain

なかなかいい感じですね。ただ、ちょっと右側が暗めなので、Miradorの画像表示調節機能を使ってちょこっと明るくしてみますと・・・

f:id:digitalnagasaki:20170909022232j:plain

本来、こういう風にあまり輝度や彩度をいじるのはあまり好ましいことではないのですが、一応、こういう風にして見やすくすることもできます。

さて、ここで使っているビューワは、先月末に公開された東京大学総合図書館万暦版大蔵経（嘉興蔵）デジタル版のMiradorです。すでにIIIFについてよくご存じの方や、このブログをずっと読んできてくださった方、私のIIIF講習会に参加された方々はよくご存じかと思いますが、IIIF対応で公開された画像は、IIIF対応ビューワなら、どこでも表示できてしまいます。自分の好みの機能を持ったビューワに、外の見たい画像を読み込ませることができるのです。

　ここで表示しているMiradorは、私が改良したもので、ページめくり方向を、日本の縦書き資料にあわせて右から左にめくっていったり、サムネイル画像を右から左に並べたりすることができます。ただし、それにあたっては、IIIF Presentation APIに規定されている表示方向の設定を記述しておく必要があります。viewingDirecitionというパラメータがありますので、それをright-to-leftとしておくと、そのパラメータを読み込んで右⇒左のページめくり等に対応するようになっています。西洋の資料や横書き資料はleft-to-rightとしておけば左から右にページめくりできます。

　このビューワに読み込ませたのは、日本の縦書き資料なので右から左に読んでいきたい、ということなのですが、新日本古典籍総合データベースの方は、きちんと右から左に読んでいくことができました。このIIIF マニフェストファイルを見てみると、"viewingDirection":"right-to-left"となっているのが確認できました。この仕事は国文学研究資料館のプロジェクト「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」によるもので、システム構築はインフォコム株式会社が行っているようです。新日本古典籍総合データベース自身が実装しているビューワでは右から左へのページめくりにはまだ対応していないようですが、IIIF マニフェストファイルを先行してきちんと対応させておくことにより、上記のような形で、対応可能なビューワを誰かが用意できればきちんと表示されるようになります。いわば、潜在的な可用性を高めることにつながることです。もちろん、日本語縦書き資料を右から左に読んでいけることは、IIIFの日本や東アジアでの普及にとってはとても大事なことですので、その点だけをもってしても価値があるのですが、このように、今はできなくてもいつか誰かが活用してくれるかもしれない情報を、コストに見合う範囲できちんと残していくという姿勢は、デジタルアーカイブを持続的に発展させていく上で大切なことですので、個別に見ると小さなことですが、こういう姿勢は忘れないようにしていきたいものです。

　さて、新日本古典籍総合データベースの話が出てきましたので、もう少し、今度は万暦版大蔵経デジタル版との対比もしてみましょう。基本的に、漢文の仏典ということになりますので、同じものの異なる版、というのが東アジア全域にわたって様々に残されてきています。たとえば、以下のような感じです。

f:id:digitalnagasaki:20170909013820j:plain

さらに、万暦版大蔵経デジタル版は、ビューワをもう少しカスタマイズしていまして、目次欄の「SAT DB」という箇所をクリックすると、対応するテキストデータが画面右側に縦書きで表示されるようになっています。たとえば以下のような感じです。

f:id:digitalnagasaki:20170909013856j:plain

テキストデータは、大正新脩大藏經の全文テキストデータベースであるSAT大蔵経テキストデータベースから引っ張ってきておりますので、異読を含む脚注もあります。異読のうち「明」と注記されているものは万暦版大蔵経ですので、ほぼそのままデジタル画像と対応します。たとえば以下のような感じです。

f:id:digitalnagasaki:20170909014113j:plain

このようにして見比べていくと、やはり右から左にページをめくっていけるようになっていないと操作性の面ではなかなか厳しいものがあります。全体として、右から左へのページめくりはなんとか対応していきたいところですが・・・

　先日、ハーバードの燕京図書館の中国古典籍コレクションのIIIF対応画像のなかにも万暦版大蔵経が一部含まれていることに気がついたので、比較できるビューを作ってみました。たとえば以下のような感じです。

f:id:digitalnagasaki:20170904164803j:plain

このビューは、たとえばこちらにアクセスしていただいて、目次欄の「SAT DB」をクリックしていただくと、テキストデータの下に「Harvard」と注記されたIIIF Dropアイコンが表示されます。そこで、ウインドウを一つ増やして、そこにこのHarvardのIIIF Dropアイコンをドラッグ＆ドロップしていただくと、対応するページ（キャンバス）が表示されるようにしてみています。

　万暦版大蔵経デジタル版の今後の課題の一つとしては、このアイコンを増やしていくことが重要であると考えておりますが、それはともかく、

　このHarvardのものを表示してみたところ、viewingDirectionがleft-to-rightになっていることに気がつきました。いくつか見てみたところ、大体そういう感じになっているようでしたので、さっそく、HarvardのIIIF担当者に連絡をとってみたのでした。ところが、中で議論したところ、右方向か左方向かというフラグがないのでうかつに変更ができない、という話になってしまったようで、残念ながらとりあえずお蔵入りとなってしまいました。中国古典籍だとほとんど右⇒左なのではないか、とは主張してみたのですが、残念ながら反応は今ひとつでした。

　実は、京大附属図書館のIIIF manifestも、上記のように表示してみたらページめくりが左⇒右となっていて、IIIF manifestを見てみたらviewingDirectionがないので、あれれ？と思ったのですが（viewingDirectionのパラメータはSHOULDと規定されているので、なくても一応大丈夫です）、京大附属図書館のIIIFコンテンツの場合、右方向と左方向の資料が混在しているようにも思えますので、この場合、仕分けが結構難しくてちょっとやむを得ない状況なのかもしれない、と思ったところでした。まだ試験公開版とのことですので、本公開までに、余力があったらご対応いただけるとありがたいところです。

　ちなみに、外から見ているだけなので実際の仕組みがどうなっているのかわからないのですが、国デコ（国立国会図書館デジタルコレクション）では、サムネイル画像の一覧表示に際して、古典籍系は右から左、近デジ由来のものは左から右、という風にしているようにも見えました。きちんとフラグをつけてくれているといいなと思いつつ、しかし、数十万点もあるので、もし、今、フラグをつけていないのなら、もうそのままにしておいてもらいたいような気もしました。今からつけるとしたら、それにかかる少なくない人件費は、やはり税金から支出されることになるのですから、それならばむしろ、もっと別なことに予算をかけていただいて、読んでいく方向については、手でいちいちフラグをつけていくのではなく、何か別の方法でなんとかするように考えた方がよいのではないかとも思っているところです。

　ということで、ちょっと長くなってしまいましたが、京都大学附属図書館のIIIFワールドへの仲間入りを、改めて心よりお祝いしたいと思います。そして、これからも引き続き、頑張っていただけたらと思っております。

2017-08-26

デジタルアーカイブにおけるテクスト資料の扱い: oXygenで日本語解説付きTEIガイドラインを利用する

TEI

ここまで、「デジタルアーカイブにおけるテクスト資料の扱い」ということで、TEIガイドラインの解説をしてきました。しかし、実際に使ってみる話をまだ全然書いておりませんでしたので、今回は、実際に使ってみる手順のはじめのところについてご紹介したいと思います。このブログの読者の方々には日本語解説付きの方がわかりやすい人が多いと思いますので、日本語解説付きで利用するにはどうしたらいいか、ということもここで御説明しておきます。

まず、TEIガイドラインをテクスト資料に適用するためには、XMLエディタを利用することがほぼ必須です。Windowsのメモ帳みたいなもので頑張るという人も世の中には結構おられるのですが、TEIガイドラインみたいにかなり複雑化したXMLサブセットを簡単に扱おうとするなら、XMLエディタがなければ「視認性が悪くて使えない」ということになってしまうと思います。

逆に、TEIガイドラインでは、複雑化したXMLサブセットを簡単に使えるようにするために色々な工夫をしています。なかでも、スキーマファイルをきちんと用意した上にカスタマイズができるWebアプリを開発公開しているという点はなかなか素晴らしいと思います。

さらに素晴らしいのは、このスキーマファイルに日本語訳が付されていることです。これは鶴見大学の大矢一志先生のお仕事です。これを用いることで、XMLエディタ上でタグ（エレメント・アトリビュート）の解説を日本語で確認しながらマークアップを行うことができるようになっています。

しかしながら、「ではどうやって日本語解説を使うの？」「そもそもどうやってXMLエディタを使ってTEIマークアップをするの？」等々、色々な疑問があると思います。そこで、以下にそれについてご紹介していきます。

まず、XMLエディタ oXygenですが、これは公式サイトから30日間お試し版をダウンロードできます。Javaで書かれているので、WindowsでもMac OSでも、Linuxでも普通に使えます。ダウンロード時にはそれぞれの版のためのダウンロードページがありますが、簡単インストールするためのインストーラ付きということになっていますので、自分のOSにあったものをダウンロードしてください。Windowsが64bitか32bitかについては、よくわからない場合は64bit版をダウンロード＆インストールしてみて、うまくインストールできなければ32bit版を試してみるということでもよいのではないかと思います。

oXygenは、ライセンスキーがないと動きません。すぐに購入するのはちょっと難しいと思いますので、まずはトライアルライセンスキーを入手しましょう。こちらのページから入手できるようになっています。

oXygenをダウンロードしてインストールすると、初回起動時にライセンスキーを聞かれます。ライセンスキー入力欄に、入手したキーをコピー＆ペーストすると、普通にoXygenが起動します。

さて、いよいよです。まずは、TEI/XMLで「新規作成」してみましょう。メニューバーの「ファイル」⇒「新規作成」を選ぶと

f:id:digitalnagasaki:20170826061308j:plain

以下のようなダイアログが現れますので「フレームワークテンプレート」⇒「TEI P5」⇒「All」を選んで「作成」ボタンをクリックしてみましょう。

f:id:digitalnagasaki:20170826061352j:plain

そうすると、以下のように、TEI/XMLファイルのテンプレートが表示されます。あとは、適宜、テキストやタグを入力していくことになります。まずは、タグの解説が英語のままですが、ちょっと試してみましょう。

f:id:digitalnagasaki:20170826061613j:plain

まず、例えば21行目の「Some text here.」というところに、以下のようにちょっと文章を書き込んでみましょう。

f:id:digitalnagasaki:20170826061819j:plain

それから、21行目のの直後に<perと入力してみましょう。そうすると、その文字列を含むエレメントのうち、その箇所で使えるものをTEI/XMLのサブセットのエレメントの中から探し出してリストした上に、それぞれのエレメントの使い方の解説も以下のようにポップアップで表示してくれます。カーソルの上下キーで候補を選べるようになっており、カーソルがあたっているエレメントの解説が右側のポップアップに表示されていくようになっています。英語が得意な人や、英語中心で研究をしている方々にはこれで十分に便利だと思います。英語圏の人たちにとってはとても便利な機能です。しかし、この解説が日本語になってくれるととても便利です。そこで出てくるのが、大矢先生が作ってくださった日本語訳です。

f:id:digitalnagasaki:20170826061854j:plain

oXygenは、TEI/XMLのサブセットのルールを書き込んだ「スキーマ」ファイルを標準で内蔵しています。そのファイルを読み込むことで、上記のように、「そこで使えるタグの候補」をリストしたり、それぞれの解説を表示したりできるようになっています。したがって、「スキーマ」ファイルのなかのユーザに対する表示部分が日本語に訳されていればよいということになります。大矢先生が作ってくださった日本語訳版のスキーマファイルは、公式サイトとしてはTEI Romaのサイトから入手できます。が、ここでのとりあえずの目標は、日本語解説を表示することですので、TEI Romaのサイトで作成した日本語版スキーマファイルをこちらに用意してみました。とりあえず、ダウンロードして使ってみてください。入手方法はこの記事の下の方にて改めて解説しますので、自力で公式サイトから直接入手したい人はそちらをご覧ください。

この日本語版スキーマファイルはtei_al_ja_320l.rnc というファイル名になっていますが、ファイル名はなんでも大丈夫です。ただし、拡張子は.rncにしておいてください。では、このファイルをどうするのかと言いますと、oXygenに戻って、メニューバーの「文書」⇒「スキーマ」⇒「スキーマの割り当て」を選んでください。

f:id:digitalnagasaki:20170826063605j:plain

そうすると、以下のようなダイアログが表示されますので、ここで、「URL」の行の右の方にあるフォルダアイコンをクリックして、今回ダウンロードした.rncファイルを指定してください。それから「OK」をクリックすると、

f:id:digitalnagasaki:20170826063653j:plain

以下のように、4行目のところに、今回指定した.rncファイルのパスが書き込まれます。これでOKです。

f:id:digitalnagasaki:20170826063724j:plain

そうしますと、以下のように、エレメントの解説が日本語で表示されるようになります。

f:id:digitalnagasaki:20170826062217j:plain

それだけでなく、アトリビュート（属性）に関しても、エレメントを入力した後にスペースを入力すると候補が表示されます。

f:id:digitalnagasaki:20170826062304j:plain

TEIガイドラインを見ると、あまりの膨大さにめまいがしてくると同時に、海外先進国の人たちはこなものを読みこなしてマークアップをしているのか、と思ってしまいそうですが、実際には、このようにして、割と簡単に使える道具立てが用意されていて、みなさんこういうものを使ってらっしゃるようです。これだったらできるかも・・・、あるいは、誰かにやってもらえるかも・・・と思ってくださる人もおられるのではないかと思いますが、いかがでしょうか。

日本語スキーマファイルを公式サイトから入手する

さて、後述するとしていた、日本語スキーマファイルの公式サイトからの入手方法についても御説明しましょう。これには、TEIスキーマをカスタマイズするためのWebアプリ、TEI Romaを利用します。TEI Romaにアクセスすると、以下のような画面になると思います。ここで「Reduce」を選んで「Start」ボタンをクリックしてください。

f:id:digitalnagasaki:20170826063331j:plain

次に、「Laugage」タブをクリックして「日本語」を選択して、さらに「Save」をクリックしてみてください。これで、スキーマを日本語解説に切り替える設定は終了です。

f:id:digitalnagasaki:20170826063439j:plain

次に、これをスキーマとしてダウンロードしてパソコン上に保存しましょう。以下のように、「Schema」タブを選んでから「Generate」ボタンをクリックしてください。しばらく待つと、.rncファイルをダウンロード＆保存するダイアログが表示されますので、ファイル名を適当につけて、保存します。これで、日本語版スキーマファイルの入手は完了です。上記のように、作業中のTEI/XMLファイルにこのスキーマを割り当ててみてください。

f:id:digitalnagasaki:20170826063515j:plain

終わりに：TEIのカスタマイズについて

最後に、このTEIのカスタマイズとTEI Romaについて少しだけ解説させていただきます。TEIは、このブログにてこれまでにも触れてきたように、基本的に、コミュニティがルールを作るという姿勢で運用されているものであり、「このルールを使え」と押しつけるものではありません。ユーザが必要だと思ったらルールをカスタマイズできますし、カスタマイズしたルールを全体に適用しようという議論を始めることもできます。しかし、ルールをカスタマイズすると言っても、カスタマイズしたルールを手元の作業に簡単に応用できるようにするのは通常ではなかなか困難です。そこで、TEIコミュニティでは、このTEI RomaというWebアプリを用意して、カスタマイズした場合でも簡単に手元のファイルのそのルールを適用して作業できるようにしているのです。ではどのようにすればカスタマイズできるのか、そのメリットは、というようなことは、またおいおいご紹介していきたいと思います。

2017-08-16

デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法

TEI

前回記事に続けてもう一つ、デジタルアーカイブにおけるテクスト資料の扱いについての記事です。

ここまで、このブログでTEIに関する話を読んできていただくと、「そんなに細かいタグを付けるのは大変だ」と思ってしまわれる人も結構おられるのではないかと思います。しかし、TEIでは、必ずしも細かく深いタグをつけていかねばならないというものではなく、浅いマークアップ（タグ付け）でもTEIであると言えますし、それでも一定の機能を果たすことはできます。

特に、こういったことについて関心があるのは、やはり図書館の方々のようです。デジタル化はするが、内容にあまり深入りすることははばかられる、あるいは、時間的コスト的に内容のタグ付けなどはさすがにちょっと無理、というような状況は、世界中のどこにでもあるようで、しかし、それでもテキストデータを書誌情報とともにうまく流通させるにはTEIを使っておくことが後々有益だろう、ということで、図書館の方々が中心となって、Best Practices for TEI in Libraries というガイドラインが作成されたようです。

ここでは、TEIでのマークアップのレベルを4つに分けています。それをラフに翻訳してみると、

Level 1: OCRで生成されたテクストデータ。ページ画像に紐付けられており、ページ画像なしで電子テクストとして単独で用いられることを意図したものではない。エンコーディング（タグ付け・マークアップ）は全文検索を補助するために行われる。

Level 2: OCRで生成されたテクストデータであり、ページ画像に紐付けられている。ただし、Level 1と異なり、テクストの領域や見出しなどはきちんとマークアップされている。

Level 3: テクストデータは、OCRか手入力のいずれかによって作成されている。テクストの構造がある程度マークアップされており、ページ画像はなくても利用できるものもある。

Level 4: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、学生や研究者、一般の読者が読むにあたり、ページ画像がなくてもテクストデータだけで利用可能なもの。

Level5: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、Level 4と同様に、ページ画像がなくても利用可能なものである。それに加えて、専門知識を持った担当者による人手での充実したタグ付けが行われたもの。

という感じのようです。つまり、筆者があれこれ書いてきているTEIの利用法のほとんどは、Level 5 の話であって、そうではないマークアップの仕方もこのように色々考えられているということです。具体的にどうマークアップするか、ということは、事例が色々と上記のページに載っていますので、まずはそちらをご覧ください。

　また、こうなってくると書誌情報をどうするのか、という話が気になりますが、上記のページの

4.1.6. Element and Attribute Recommendations for the TEI Header

というチャプターでは、MARCとTEIのタグとの対応付けの仕方が載っていますので、そちらをご覧ください。基本的に、MARCから自動変換できるのではないかと思います。

こうしておくと、何が良いのかと言えば、一つの資料（テクスト）単位でデータが流通した場合でも、メタデータをきちんと一緒に流通させられるということと、それから、修正した場合に修正した人がその修正に関する情報も機械可読な形で記述した上でさらに流通させられること、は、とりあえずすぐに思いつくメリットです。基本的に、TEIはデータの追記と処理がしやすいので、可用性の高さという観点から色々なメリットが出てくるだろうと思います。

　図書館等での内容にあまり踏み込まないデジタルアーカイブ公開の際に、OCRや翻刻をするなどしてテキストデータが何らかの形で付与され、それがオープンなライセンスの下で公開されることもあると思います。そのような場合に、このようにして上記のそれほど高くないLevelにて公開しておけば、手間をあまりかけずにデータの有用性を高めることができるのではないでしょうか。

ちなみに、日本での事例はどうなのかと言えば、もう3年ほど前になりますが、筆者が国会図書館デジタルコレクションの資料を共同翻刻するシステムを開発した際に、NDLのメタデータのごく基本的なものを抜き出して、翻刻したテクストデータとあわせて上記のLevel 2と3の間くらいのTEIマークアップファイルを生成できるようなものも作ってみております。

たとえば以下のテクストデータを

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562

以下のように変換してみています。なお、下記のページでは、レスポンスヘッダのContent-TypeをXMLにしていないのでソースファイルをご覧ください。

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562&format=teibp

まだ色々不十分な感じもありますので、今後さらに精進していかねばと思っておりますが、とりあえずこれだけでも、テキストデータと書誌情報、それから画像（のURL）を一定のルールで比較的容易に共有できますので、そこに有用性を感じていただくことはできるのではないかと思っております。

2017-08-16

デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報

TEI

　やや間が空いてしまいましたが、先日より何度かご紹介しているTEI (Text Encoding Initiative)に関するご紹介の続きです。

先週、カナダのモントリオールにて開催されたDigital Humaities 2017というカンファレンスで、TEIコミュニティが賞をもらいました。そこで受賞記念スピーチがあったのですが、1980年代終わりにTEIがどういう状況で生まれてどういうことを目指してきたか、ということが創始者達によって語られました。詳しくは別の機会にご紹介させていただきますが、ここで一つ、なるほど、と思ったのは、「全文テクストデータから書誌情報がなくなってしまうことがあるので<teiHeader>を取り決めた」という話でした。今はマークアップ言語の利用が普通ですから、たとえば青空文庫を見てみても、書誌情報がタグで記載されています。たとえば以下のような感じですね。

<div class="bibliographical_information">
<hr />
 
底本：「太宰治全集3」ちくま文庫、筑摩書房 
　　　1988（昭和63）年10月25日初版発行 
　　　1998（平成10）年6月15日第2刷 
底本の親本：「筑摩全集類聚版太宰治全集」筑摩書房 
　　　1975（昭和50）年6月～1976（昭和51）年6月 
入力：金川一之 
校正：高橋美奈子 
2000年12月4日公開 
2011年1月17日修正 
青空文庫作成ファイル： 
このファイルは、インターネットの図書館、<a href="http://www.aozora.gr.jp/">青空文庫（http://www.aozora.gr.jp/）</a>で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。 
 
 
</div>

今となってはごく普通にできることですが、マークアップ言語の利用がまだ一般的でなかった環境であれば、こういうことも難しかったでしょうから、きちんとタグを使って書誌情報をつけましょう、ということ自体も、TEIが登場してきた当時には、ルールとして重要だったのではないかと思われます。

また、それだけでなく、TEIでは、書誌情報の書き方も細かなルールを用意しています。古典籍に関しては、すでにこのブログで少しご紹介したことがありますが、青空文庫のような電子テクストに関してもTEIは様々なルールを提供してくれています。もちろん、必ずしもその細かなルールすべてを適用しなければならないというわけではありません。たとえば、上記のものを<teiHeader>で用意されているタグ（エレメント）を使って書いてみると、（ただし「底本の親本」をはしょっていますが）、以下のような感じになろうかと思います。

<teiHeader>
 <fileDesc>
 <titleStmt>
 <title>走れメロス</title>
 <author>太宰治</author>
 </titleStmt>
 <publicationStmt>
 <distributor>青空文庫</distributor>
 <authority>金川一之</authority>
 <authority>高橋美奈子</authority>
 <date when="2011-01-17"> 2011年1月17日</date>
 </publicationStmt>
 <sourceDesc>
 <bibl>
 <author>太宰治</author>
 <title>走れメロス</title>
 <publisher>筑摩書房</publisher>「太宰治全集3」ちくま文庫、
 <date when="1988-10-25">1988（昭和63）年10月25日</date>初版発行
 <date when="1998-06-15">1998（平成10）年6月15日</date>第2刷
 </bibl>
 </sourceDesc>
 </fileDesc>
 <revisionDesc>
 <list>
 <item>
 <date when="2011-01-17">2011年1月17日</date>修正 </item>
 <item> 入力<persName>金川一之</persName>校正<persName>高橋美奈子</persName>
 <date when="2000-12-04"> 2000年12月4日</date>作成 </item>
 </list>
 </revisionDesc>
 </teiHeader>

こうして記述しておくと、テクニカルには、より細かな情報を簡単に取り出すことができて便利だ、という話になります。たとえばLinked Open Dataなどをやっている方々におかれましては、こういうデータが大量に作られれば色々な活用ができそうだとうずうずしてしまわれるのではないかとも思うのですが（もちろん、TEI関係ではそういう研究・実践が様々に行われています）、もう一つ注目しておいていただきたいのは、「電子化の元になった資料の書誌情報」と「電子版の書誌情報（というかメタデータ？）」を別々に書けるようになっているという点です。デジタル化された元資料とデジタルデータをきちんと区別しつつ、それぞれに関して適切に情報提供しようという姿勢は、デジタル学術編集版（digital scholarly edition）を適切に学術の場で共有するにはどのようにすべきか、という議論のなかで生まれてきたものだと思われますが、デジタルアーカイブと元の資料の関係を考えていく上でも色々な示唆を与えてくれているような気がします。

2017-08-01

Mirador最新版に右⇒左ページ閲覧機能を追加しました

IIIF Mirador

Miradorの2017年6月版に右⇒左のページ閲覧機能を追加しました。要するに、日本や中国等の縦書き資料を、読む方向に（右から左）にあわせてページを閲覧できるようにする機能です。Miradorはこれができないのが東アジア文化圏にとってはちょっと残念なところなのですが、5月のスタンフォードでのシンポジウムで、この機能をきちんとつけないと東アジア文化圏での今後の展開には厳しいということを改めて主張して、今回こそは本家にマージしていただけるというお話をいただきました。ので、今度こそはと大きく期待しているところです。

こちらでMiradorに標準搭載されている『唐糸草紙』をご覧いただけば、ご確認いただけるかと思います。この『唐糸草紙』は翻刻もついていますので、以下のような感じになります。

f:id:digitalnagasaki:20170801193214j:plain

ページ下部のサムネイル一覧を確認すると、以下のように右から左に並んでいるのがわかると思います。

f:id:digitalnagasaki:20170801193243j:plain

サムネイルを一覧する表示モードもありますが、そちらでも、右から左に並んでいます。

f:id:digitalnagasaki:20170801193400j:plain

大体、こういう感じですので、東アジア文化圏の古典籍の一般的な利用にはこれでそれなりに使えるようになるのではないかと思います。

以下に、今回の改良版のMiradorのJavascriptも置いておきましたので、よかったら使ってみてください。

http://candra.dhii.jp/nagasaki/mirador201708rtl/mirador/build/mirador_rtl_201708.tgz

なお、この機能にコンテンツを対応させるためには、IIIF Manifestの中で、viewingDirectionの値を'right-to-left'と書いておかねばなりません。まだ一部のベンダーさんは対応できていないような感じですので、きちんと対応してくださいね。

ということで、今後ともよろしくお願いいたします。

2017-08-01

青空文庫の『走れメロス』をTEIで

TEI

前回・前々回に引き続き、TEIの話です。前回、ごく基本的なマークアップでもOKだということを少し書きましたが、それでは試しに、ということで、青空文庫の『走れメロス』をTEIにて書いてみました。それがこちらになります。

特に説明するようなことはあまりないのですが、TEIのタグ付けルールに従って、本文にパラグラフごとにタグをつけていっているのと、書誌情報のところで、青空文庫としての入力者情報や訂正情報などを書いています。これには、電子版としての位置づけをどう考えるかによって色々な書き方があり、これが正解というものはないようですので、最終的には電子版作成者の側でどうするかを決めることになります。今回は、上記のリンク先のXMLファイルに載っていることを改めて部分的に引用しますが、少し検討した結果、以下のようにしてみています。青空文庫のファイルのフッタの情報を抜き出して置き換えています。

<fileDesc>
 <titleStmt>
 <title>走れメロス</title>
 <author>太宰治</author>
 </titleStmt>
 <publicationStmt>
 <distributor>青空文庫</distributor>
 <authority>金川一之</authority>
 <authority>高橋美奈子</authority>
 <date when="2011-01-17"> 2011年1月17日</date>
 </publicationStmt>
 <sourceDesc>
 <bibl>
 <author>太宰治</author>
 <title>走れメロス</title>
 <publisher>筑摩書房</publisher>「太宰治全集3」ちくま文庫、
 <date when="1988-10-25">1988（昭和63）年10月25日</date>初版発行
 <date when="1998-06-15">1998（平成10）年6月15日</date>第2刷
 </bibl>
 </sourceDesc>
 </fileDesc>
 <revisionDesc>
 <list>
 <item>
 <date when="2011-01-17">2011年1月17日</date>修正 </item>
 <item> 入力金川一之校正高橋美奈子 <date when="2000-12-04"> 2000年12月4日</date>作成 </item>
 </list>
 </revisionDesc>
 </teiHeader>

これはもちろん、完全ではなくて、様々な情報に関して典拠情報などを参照することができます。典拠情報に関しては、基本的には、タグの属性として ref="典拠情報のURL"という風に書くことになるようです。

XMLの操作を知っている人ならこれだけでも一目瞭然だと思いますが、タグがついている情報に関しては、タグを指定した上でその内容を検索することができます。たとえば、入力者名を検索したいと思えば、TEI->teiHeader->fileDesc->publicationStmt->authorityの中を指定して検索することができます。あるいは、元になった本の刊行年を抜き出したければ、TEI->teiHeader->fileDesc->sourceDesc->bibl->dateで抜き出しできます。この事例では2つ<date>がありますが、この場合は、新しい方のみを抜き出せばよさそうです。

これは、検索するだけでなく、抜き出して統計処理をしたりするのにも使えます。抜き出したものをCSVファイルに書き出せば、エクセル等に読み込ませて処理することもできますね。

次に、本文を見てみますと、これはもう本当に単純です。パラグラフで区切っているだけです。しかし、これでもTEI準拠と言うことができますし、その意味が十分にあります。というのは、このTEI/XMLファイルを流通させることによって、どの文章が何番目のパラグラフにあって、さらに、パラグラフのなかの何番目の文字から始まる文章か、ということも共有できます。その場合、TEI->text->body->pという風に見ていきますが、ここではが複数（多数）存在するということになります。EPUB等で言えばリフロー型ということになると思いますが、それがより様々な発展の可能性を秘めた形で作成されていると考えていただくとよいのではないかと思います。

＜人名と発話をタグ付けしてみる＞

さて、これだけですとあまり面白くないので、もう少し話を進めたいと思います。

青空文庫には「ルビ」がありますね。そのルビはどこに行ったのか、という話がありますが、それは一応実現していますがかなり高度な話になってしまうので、少し先で御説明したいと思います。というのは、TEIガイドラインではルビのルールをまだ持っていないからです。これは現在、ルビのルールをTEIガイドラインに入れてもらうべく準備をしております。（それも含めて日本語の問題を十分に解決するために、昨年、TEI協会に東アジア／日本語分科会が設立されました。）もちろん、では全然日本語に対応できないのかといえばそうではなく、TEIではスキーマをカスタマイズするための手立ても用意しておりますので、スキーマをカスタマイズすることによってルビも実現可能です。ただ、その準備が少しややこしいので、まずはその前にできそうなことを少しみていきましょう。

とりあえず、人名と会話が色々出てくるので、それを整理してみたいと思います。この場合、人名については<persName></persName>というタグが用意されていて、corresp=""といった属性で人物名IDを与えることによって、略称などが出てきた場合でも統一的に処理できるようにしています。もちろん、これにはタグをつけた人の判断が入り込む余地があり、人によって判断が異なる場合もありますので、それを誰が行ったかということは本来きちんと残しておくべきです。それも、そういう書き方がいくつか用意されています。が、まだそこまでは踏み込みません。

ということで、用意してみたのがこちら（dazai_persName.xml）です。（このファイルを見てびっくりしないでいただきたいのですが、このように色々タグをつける場合には、普通のエディタだとちょっと難しく、XML Editorを使う必要があります。このブログでもご紹介したoXygen XML Editorがおすすめです。その使い方についても近々このブログでご紹介します。）

このなかで、たとえば、最後の方に

という記述があります。このような感じで、corresp="#メロス"となっているエレメントは、ファイルの最初の方に用意されている以下の<person xml:id="メロス"> ～</person>を参照していることになります。（XMLのルールとして、属性の値に「#」がついている場合は、同じファイル内で#以下の文字列のIDを持っているエレメント（タグとその内容）を指す、ということになっています。）

<person xml:id="メロス">

<persName>メロス</persName>
<occupation>牧人</occupation>

</person>

なお、このような<persName>のエレメント使い方は本来の使い方からはちょっと違っているかもしれないのですが、とりあえずどういう風に使えるかを示すための例ということでご容赦ください。

次に、dazai_persName.xmlの中で、<said who="#メロス">～</said>というタグを探してみてください。これは発話を表すタグで、ここでは「誰の発話か」を明確にするためのwhoという属性が使えることになっています。ここでも、「#メロス」となっていますので、やはり、「メロス」というxml:idを持つエレメントを参照する、ということになります。TEIは、このXMLのID参照機能を活用して利便性を高めています。

　さて、このようにしてタグをつけていくと、どの発話が誰によるものか、ということをきちんと残すことができるようになります。そんなものはAIでできるようになるからよいのではないか、と思う人も最近は多いと思いますが、基本的に、コンピュータ処理ではわからない部分をどうするかということは常に課題であり、分量がそれほど多くない場合はむしろ人手でやってしまった方がよく、人手で作業する場合にはなるべく共通フォーマットにしておいた方が色々と後々安全である、ということで、TEIに落ち着くのが一つの有力な手段になるようです。

　これだけでもかなり大変そうですが、このようにしてタグを付けたとして、付けたらそれで終わりなのか…というわけにもいきません。そこで、試しにこういうものを作ってみました。このページの「ファイル選択」ボタンを押して、先ほどのdazai_persName.xmlを選択して開くと、（あるいはそのファイルをこのボタンにドラッグすると）、このファイルを開くとともに、発話のところを茶色にしたり、人名を靑色にしたりしています。そして、人名をクリックすると、その人名の発話内容と呼称が右側のウインドウにリストされます。たとえば以下のような感じです。

f:id:digitalnagasaki:20170801035744p:plain

ここら辺の技術をわかっている人には当たり前すぎる話で恐縮ですが、とりあえず、あくまでも一つの利用例として、このようなことができるということで提示しております。基本的に、TEI/XMLで肝心なのは、「一つ書いておけば色々な形で活用できる」ということです。たとえば、セリヌンティウスの発話だけを取り出して何かと比較したい、と思ったときなど、これを利用すればいちいちコピペなどせずとも割と簡単に抜き出せます。あるいは、太宰作品における発話をすべて拾い出して傾向を見たい、と思ったときなどは、<said>～</said>を全部抜き出すことになるでしょう。もし、他の太宰作品もすべて<said>～</said>タグがついていたなら、それは割と簡単に実現できますし、それがたとえば青空文庫の本すべてに行われていたらさらに幅は広がります。発話だけなら、鉤括弧を探せば大体みつかるかもしれませんが、鉤括弧に囲まれていない発話もある場合には、やはりこのようにしてタグで発話であるとつけておくことが後々有益でしょうし、そこに誰の発話かということももし記述しておくことができれば、もっと有益になるでしょう。

　とりあえず、固有名詞やそれに類する言葉の扱いは、比較的わかりやすい例かもしれないと思いまして、挙げさせていただきました。他にも、辞書や校訂テクスト、コーパス、そして、「ルビ」など、色々ありますので、徐々に採り上げていきたいと思います。今後ともよろしくお願いいたします。

2017-07-31

TEIへの取り組み方

TEI

　TEIに取り組むには、一人で取り組むか、プロジェクトとして複数人で取り組むか、という二つのやり方があります。一人で取り組む場合には、とにかく自分で頑張ってみればいいのですが、プロジェクトとして複数人で取り組む場合には、まず、役割分担をする必要があります。「TEIで用意されているタグ（エレメント・アトリビュート）のうち、どれをどう使うか」ということを決めるという役割と、それに従ってマークアップをしていく役割をわけておかねばなりません。これは文化資料に関わる他の規格の多くも同様かもしれないと思いますが、用意されているルールセットをすべてきちんと提供しようとしたら、いくら時間があっても足りません。特にTEIの場合、個々の単語の品詞や原形の情報やら画像の該当箇所とのリンク、校訂情報、来歴情報を含む詳細な書誌情報等々、500を超えるタグが用意されていますので、用途とかけられる時間等に応じて利用するタグを取捨選択する必要があります。

　TEIでは、用途にあわせたタグのモジュール化が行われており、言語学、辞書、書誌学、校訂テクストなど、必要に応じてタグをまとめて取捨選択できるようになっています。また、簡易なタグセットとしてTEI Liteというものも用意されています。さらに、マークアップの深さをレベルとして設定して、かけられるコストに応じてレベルを選択するという考え方を採る Best Practices for TEI in Libraries というサブセットも用意されています。たとえば、一番浅いレベル1では、本文の箇所は単にOCRの結果のテキストデータと画像ファイルをリンクしているだけです。特に図書館でTEIを採用する場合には適しているものだろうと思います。

　ということで、まず、プロジェクトの誰かが「どのタグをどのように使うか」ということを決めなければなりません。これを決める際には、TEIのタグの階層関係にも配慮しながら検討しなければなりません。ここで有益なのが oXygen XML Editor です。これは残念ながら商用ソフトなのですが、TEIのスキーマが最初からインストールされていて、TEIを扱うには大変便利です。30日間のトライアルでフル機能を試せますので、TEIに取り組んでみようと思ったら、まずは使ってみていただきたいところです。oXygen は、TEIの進展にあわせて発展してきたようなソフトウェアであり、画像とテキストをTEIのルールでリンクさせる記述をするためのプラグインも提供されているというなかなかの優れものです。このoXygenでタグの階層関係を確認しながら「どのタグをどのように使うか」を決めていくのが比較的やりやすいものと思われます。それが決まれば、他の人は、それにしたがってマークアップをしていくことになります。もちろん、プロジェクトの皆で民主的にルールを決めていくことも有益です。ただ、その場合、皆でTEIについてそれなりに深く学びながら進めて行かねばならないので、意義は深いですが、コスト的にはちょっと検討が必要かと思います。

　さて、ここでは、「どのタグをどのように使うか」ということを考える立場からTEIについて見ていきたいと思います。

　まず、そのテキストデータはどういう人たちによって使われるのか、どれくらい安定したものを提供する必要があるのか、ということを検討する必要があります。もし、用途をまったく限定せずになるべく誰にでも使えるようにすることをひたすら追究するのであれば、ごく簡素なマークアップのみでもよいでしょう。この場合、たとえば以下のような感じでもよいかもしれません。

<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
 <fileDesc>
 <titleStmt>
 <title>タイトル</title>
 </titleStmt>
 <publicationStmt>
 出版に関する情報
 </publicationStmt>
 <sourceDesc>
 元資料に関する情報
 </sourceDesc>
 </fileDesc>
</teiHeader>
<text>
 <body>
 ここに本文
 </body>
</text>
</TEI>

書誌情報に関しては、<fileDesc>～</fileDesc>のところに色々と書いていくことになりますが、既存データがあって、かつ量が多ければ自動変換でやってしまった方がよいでしょう。あとは、本文ですが、単純に、～で段落を記述していくだけでもよいのです。

ただ、これだけだとどうも物足りない、あるいは、プロジェクトの目的からするとこれだけでは十分でない、という場合には、用途に応じて様々なタグが用意されています。次回以降は、それらについて少しずつご紹介していきたいと思います。