2017-10-21

IIIFの導入方法のまとめ（コンテンツホルダー・一次公開者向け）

IIIFの導入の仕方がよくわからない、という声を結構あちこちで聞きます。ブログ記事として断片的に書いてきているのですが、それをいちいち探して読んでいただくのも大変ですので、改めて簡潔に記しておきます。ただし、既存のサーバ環境やサーバ・ネットワーク運用ポリシーによってできることは結構違ってくることがありますので、その点はよくご注意ください。

　それから、IIIFの場合、「導入」と言っても、コンテンツホルダーや一次公開者向けの「導入」とは別に、既存の公開IIIFコンテンツを素材とする二次利用公開という観点での「導入」があります。これは今までは「利活用」と呼ばれてきたものだと思いますが、たとえば地図年表上に他所のIIIFコンテンツをマッピングできるシステムの例などをみますと、もはや「導入」と言ってしまってもいいような雰囲気があるように思っております。が、ここでは、あくまでも、一次公開者向けの導入方法の解説ということになっておりますので御承知置きください。

IIIF Image APIへの対応

画像配信サーバマシンの選定：メモリはある程度大きい方がいいです。国デコImage Wallは8GB、SAT大正蔵図像DBは32GB、万暦版大蔵経デジタル版は96GBです。それから、ディスクアクセスは速ければ速いほどよいですが、体感ですと、画像1枚あたり50MBくらいまではNASでも大差ありません。100MB超えると、NASではちょっときつくなります。

画像を用意する。
- 画像は、筆者の体験では、2MB以内ならJpegそのままでも問題なし。2MBを超えるなら、Pyramid Tiled Tiffに変換する（フリーソフトで対応可能：Pyramid TIled Tiffへの変換の仕方）か、JPEG2000を利用（こちらは色々お金がかかるが、すでにライセンスを購入していればそのまま使ってください）するのがいいような気がします。ただし、これもネットワークやハードウェアの環境によって違ってくることがあると思いますので、ご自身の環境でも試してみてください。
画像のサイズや想定アクセス数にあわせて画像配信サーバソフトを選択する。
- 画像が小さくてJpegのままでいくならLoris、digilibなどを選ぶこともできます。LorisはPythonで、digitlibはJAVA/Tomcatで動きます。筆者はフォローしておりませんが、Rubyで動くものもあります。Pyramid Tiled Tiffの場合は高速なIIP Image Serverも利用可能です。導入方法は、たとえば下記の記事をご覧ください。
- Loris IIIF Image Server on Ubuntu 16.04 (2SC1815J氏による)
- Digilib導入方法
- IIIPImage Server導入方法（再掲）
- それから、Dspaceなど、対応プラグインが用意されているものもありますので、既存環境のIIIF対応についても確認してみてください。

画像配信サーバソフトを、画像が置いてあるディレクトリにアクセス権を持っているサーバにインストールする。

インストールは、選んだソフトによってやり方が変わります。サーバの設定や運用ポリシーによってはインストールができない場合もありますのでご注意ください。それぞれの配信サーバソフトのインストール方法については、それぞれ紹介記事がありますのでご確認ください。

CORSの設定をする。

HTTPヘッダのAccess-Control-Allow-Originの値が*になるようにサーバの設定をする必要があります。サーバの設定ファイルに書くことになる場合が多いと思いますが、.htaccessに書くだけで対応できることもあります。この件については、ググるとたくさん情報がでてきますのでそちらにお任せします。

動作確認をする。

IIIF Image APIに準拠してアクセスできているかどうか、確認をしましょう。これは上記のインストール方法紹介記事に確認方法も書いてあるはずです。

IIIF Image APIの導入、つまり、画像そのものの配信については以上です。

次に、Presentation APIへの対応についてみてみましょう。

IIIF Presentation APIへの対応

「デジタルアーカイブ」が自らのデジタル画像を公開するためにPresentation APIに対応するということは、IIIFマニフェストと呼ばれる、「資料」単位でのJSON-LDファイルを作成して公開するということです。これは、動的である必要はなく、JSON-LDファイルを作ったら、あとはWebディレクトリに置いておくだけで大丈夫です。「資料」単位ですので、その資料に含まれる画像のIIIF Image APIによるURL群を適切な順番で記述しておくということになります。では、もう少し詳しく、順を追ってみてみましょう。

画像の縦横ピクセルサイズの情報、画像のURL、その他、画像や画像のまとまりとしての資料の各種メタデータを確認する。
- 画像の縦横ピクセルサイズはプログラムで取得できますので、いちいち手作業をしようとは考えないでください。各種メタデータはなるべく詳しい方がいいです。
それらのデータを用いて、資料単位でPresentation APIが支持する形式に準拠したJSON-LDファイルを作成する。
- 前項で用意したデータを一つのJSON-LDファイルにまとめるのですが、大抵のプログラムでは、データを読み込んで配列やオブジェクトなどに格納しておけば、あとはそれをJSON形式に変換してしまう関数があったりしますので、いちいち{}などを書こうとしないで、配列等から変換するようにした方が整合性チェックの手間が省けて楽だと思います。
- 全体的な内容については、神崎正英氏による解説が参考になると思いますのでぜひご覧ください。
- 画像上に付与したアノテーション（注釈）に関しては、別ファイルを作成してそれを参照するように書くのが現状ではいいように思われます。たとえばSAT大正蔵図像DBのIIIFマニフェストとアノテーションがご参考になるかもしれません。また、詳しい解説が神崎正英氏のサイトにもありますので、こちらもぜひご覧ください。
- 目次も作成できますが、結構冗長になりますので、この場合、ファイル送信時にgzip圧縮をかけたりした方がいいかもしれません。（これについてはこのブログの次の記事をご参照ください）。たとえば、万暦版大蔵経デジタル版のIIIFマニフェストの下の方のsc:Rangeのところをご覧ください。
作成したJSON-LDファイルを適切なディレクトリ（当該ファイル内で@idとして設定したパスになるように）に置く。それと、このファイル（が置いてあるディレクトリ）は、Image APIと同様に、Access-Control-Allow-Originの値が*になっている必要があります。
- 繰り返しになりますが、単にファイルを置いておくだけでも大丈夫です。

このようにして作成・設置されたIIIFマニフェストのURLがあれば、好きなビューワ、あるいは各地のビューワに読み込んでもらって閲覧してもらうということが可能になります。

ビューワの設置

IIIFに対応して公開するという場合には、上記のような手順を経て、IIIFマニフェストのURLを公開すれば、それで十分です。しかし、組織・機関として公開する場合、ビューワ上で見えるようになっていないと十分に成果として認められない場合があります。そこで、IIIF対応ビューワを自分のサイトに設置することになります。ビューワとしては、よく用いられるのはフリーソフトのUniversal ViewerとMiradorで、それぞれに様々特徴があります。それに加えて、EuropeanaやIIIF Curation Viewerで採用されているLeafletというビューワもあります。それぞれよく比較してみて、目的にあったものを設置するという手もありますし、好きなビューワを閲覧者が選べるようにするという方法もあります。

IIIF対応ビューワに関しては、筆者が書いてきたブログ記事などに色々情報がありますので、そちらもご参考になりましたら幸いです。

終わりに：検索と認証

メタデータやタグ等を検索できるようにしたければ、また別途色々工夫する必要がありますが、その観点からすると、現状では既存のデジタルアーカイブシステムの検索システムを用いつつ、おまけとしてImage APIに対応しつつJSONファイルも用意しておくというGallica（フランス国立図書館）の手法が採用しやすいように思われます。ただ、検索システムを別途一から用意しようという場合は、IIIF Search APIというのがありますので、それに準拠する形で用意するといいかもしれません。

それから、認証をかけてアクセス制限をしたいという場合には、Authentication APIというのもありますので、オープンにすることが運用上不可能なコンテンツの場合にはご検討いただくとよいかもしれません。

以上、お役に立ちましたら幸いです。

2017-10-13

世界各地の高精細画像で簡単に自分の仮想コレクションを！（IIIF Curation Viewer）

IIIF IIIF応用

いよいよ、出ました。

IIIF Curation Viewer | 人文学オープンデータ共同利用センター

の重要なアップデートです。

一言で言うなら、

「世界各地の高精細画像で簡単に自分の仮想コレクションを作れるようになりました」

これは、IIIFが目指す世界における重要なマイルストーンの一つなのですが、それが、とてもスマートなインターフェイスで実現されたということに、感動しているところです。

すでに、公式サイトにもいくつかデモがありますが、私もさっそくやってみました。というより、やってみた結果、そのインターフェイスのスマートさに感動しているところです。

　作ってみたものは、特にスマートでもなんでもないのですが、魚の顔を少し集めてみました。国会図書館と国文学研究資料館から。つまり、複数の別々の機関のサイトから公開されている画像が、このようにして、一つのビューワ上で一元的に操作できて、その成果も比較的簡単に公開できる、ということになってしまいました。

さて、具体的にどういう風にやってみたのか、みてみましょう。（近いうちに公式サイトからもきちんとしたマニュアルが出ると思いますのでこちらは速報私家版として）、まずはデモ用ビューワにアクセスしてみます。

f:id:digitalnagasaki:20171013050710p:plain

ここに、例の、IIIFアイコンのドラッグ＆ドロップをしろ、ということのようです。そこで、IIIFアイコンを探すのですが、こういう時に簡単なのは国デコImage Wallです。アクセスすると、いきなり画像がずらっと表示されます。これは、国立国会図書館デジタルコレクションから、デジタル化資料中の挿絵や図だけを取り出してサムネイル画像をリストしてくれるものです。そして、ここでリストされている画像を含むデジタル化資料は、その資料全体がIIIF対応になっています。ステマと思われると困るので書いておきますが、国デコImage Wallのシステムは私が作っていてIIIF対応作業も私が（書いたスクリプトで私が）行っています。

そこで、Webブラウザで新規にタブを開いてから、たとえば、「魚」で検索すると以下のような感じになります。スライダを動かすと刊行年での絞り込みもできます。

f:id:digitalnagasaki:20171013050659p:plain

気に入ったサムネイル画像をみつけたらクリックしてみます。そうすると、以下のように、その画像をもう少し拡大した画像と、IIIFアイコンや、その他いくつかの関連情報がでてきます。しかし、新規にタブを開いた人は、ここでは迷わず、このIIIFアイコンをドラッグして、Curation Viewerのタブに持って行って、タブが切り替わったら、Dropすべき場所にアイコンをDropします。

f:id:digitalnagasaki:20171013050633p:plain

そうすると、以下のように、その資料の最初のページが開きます。

f:id:digitalnagasaki:20171013050613p:plain

ここで、左上にある「サムネイル一覧」ボタンをクリックすると、以下のように、サムネイル画像を一覧できますので、気に入った画像をクリックしてみましょう。

f:id:digitalnagasaki:20171013050547p:plain

そうすると、以下のように、その画像のみが拡大表示されます。ここで、右側の黒い四角いアイコンをクリックすると、範囲選択ができるようになります。

f:id:digitalnagasaki:20171013050524p:plain

範囲選択をした後、右上にある白抜きの☆印をクリックすると・・・

f:id:digitalnagasaki:20171013050443p:plain

以下のように、☆が青くなります。（あるいは、白抜きだったものが塗りつぶされます★）。これで、一つの「キュレーション」ができました。

f:id:digitalnagasaki:20171013050410p:plain

ここで、右上の「キュレーションリストを表示」というポップアップがついているアイコンをクリックすると、以下のように、キュレーションリストの最後に、今切り出した画像が入っていることが確認できます。なお、ここでは、すでにいくつか切り出しを行ってしまっていたので、その最後に追記された形になっています。

f:id:digitalnagasaki:20171013050350p:plain

これだけでは物足りないので、次に、またWebブラウザで新しいタブを開いて、今度は国文学研究資料館の新日本古典籍総合データベースに行ってみましょう。このデータベースは、おそらく現在、日本古典籍のIIIF対応画像数では最大ではないかと思います。なかなか贅沢な環境ですが、ここで、「魚」で検索すると、以下のような資料がみつかりました。

f:id:digitalnagasaki:20171013050342p:plain

当然、ここでも、IIIFアイコンがありますので、先ほどと同じようにこれをドラッグ＆ドロップすると以下のようになります。

f:id:digitalnagasaki:20171013050333p:plain

そこで、以下のように、切り出しをして、また同様に、☆アイコンをクリックして「キュレーションリスト」に追加します。

f:id:digitalnagasaki:20171013050321p:plain

ここで、キュレーションリストを表示させてみると以下のようになりますが、この画面では、これらのサムネイル画像をドラッグすることで順番の変更ができるようになっています。

f:id:digitalnagasaki:20171013050300p:plain

たとえば、今、最後に追加したサムネイル画像をドラッグして、以下のように、一番最初に持って行ってみます。そして、以下の画面に見えている「エクスポート」ボタンをクリックしてみましょう。そうすると・・・

f:id:digitalnagasaki:20171013050253p:plain

以下のようにして、今、追加した画像のうち、矩形領域で指定した箇所が拡大される形で、選んだ画像がキュレーションリストの順番で表示されていきます。

f:id:digitalnagasaki:20171013050312p:plain

という感じで、とても簡単に、「各地の画像を集めた仮想コレクション（と私は仮に勝手にそう読んでいます）ができるようになってしまいました。もう一つ、各地の画像を集めた仮想コレクションを作れるシステムとして、IIIF Toolkit with MiradorというOmekaのプラグインがあるのですが、あちらが注釈（アノテーション）の付加や地図年表上のマッピング、作業担当者の認証制御までできてしまう代わりにサーバシステムが必要であるという重さを背負っているのに対して、Curation Viewerは、とにかく軽量で、用意すべきものもほとんどありませんし、操作性もよく考えられているように思われます。今後も、この調子で、シンプルなままで機能を拡張していっていただけたらと思っているところです。

もう一つ特筆すべき点として、このCuration Viewerは、広く用いられているIIIF対応ビューワであるMiradorやUniversal Viewerではなく、Leafletというビューワをベースとして使っています。LeafletのIIIF対応版というのが開発公開されているのですが（これの開発者のJack Reedさんは来週、来日して講演やワークショップ参加をしてくださいます）、さらにその先を行くものであるように見受けられます。Leafletベースという点は、他の有名ビューワがいずれもOpen Seadragonをベースにしていることに鑑みると、IIIFの世界に多様性を確保するという点でまず重要ですが、シンプルで使いやすいインターフェイスであるということもその存在意義を高めているように思われます。

ということで、簡単な紹介になってしまいましたが、IIIF Curation Viewerの重要なアップデートをお祝いしつつ、作成者の方々に感謝しつつ、今後のさらなるデジタルアーカイブの発展の礎ができあがりつつあることを目の当たりしている実感とともに、とりあえず筆を置きたいと思います。

2017-09-18

Miradorの正式版 (2.6.0) に、右⇒左ページめくりが実装されます

Mirador IIIF

IIIF対応ビューワの代表格の一つ、Miradorが、2.6.0にて、ようやく、右⇒左ページめくりを実装することになったようです。以下のページでアナウンスされています。

Releases · ProjectMirador/mirador · GitHub

このページから、ビューワもダウンロードできるようになっておりますので、もしよかったら、.zipか.tar.gzファイルをダウンロード＆展開して、お手元のパソコンで開いてみてください。

Miradorでは、通常のページめくりは左⇒右です。しかし、日本語資料を扱う方々からは、そのページめくりだと使いにくい、という話をたくさんいただいており、私としても使いにくいのでなんとかしなければと思っておりました。そこで、自分で機能追加のコードを書いて本家に取り込んでもらえるようにとずっとお願いしていたものが、ようやく正式に取り込んでもらえることになりました。対応してくださった、Mirador開発者のDrew Winget氏をはじめ、関係者のみなさまにはたいへん感謝いたしております。

　この機能は、資料の情報に、「右⇒左ページめくりである」という情報を組み込んでおけば、それにあわせてページめくり方向を変えてくれるものです。もう少し細かく説明しますと、IIIF manifestファイル中でviewingDirectionの値としてright-to-leftと書いておくと、それを読み込んで、ページめくりの方向を右⇒左にしてくれます。一応、例をこちらにも用意しておきましたが、同じことを皆様のパソコン上でもできますので、ぜひ、ダウンロードしてお試ししてみてください。

具体的な使い方

　このビューワのサンプルの使い方をもう少し具体的に御説明しておきますと、ダウンロードした圧縮ファイルを元に戻すと、中にexample.htmlというファイルがあります。これをWebブラウザで開くと、以下のようなページが開きます。

f:id:digitalnagasaki:20170918005125j:plain

（図1）

ここで、「＋」をクリックすると、以下のような画面になります。サムネイル画像がどんどん読み込まれていきますが、ちょっと時間がかかりますのでしばし待ってみてください。

f:id:digitalnagasaki:20170918005156j:plain

（図2）

サムネイル画像の読み込みが終わったら、このリストの中から「唐糸草紙」を探し出して、そのサムネイルをクリックしてみてください。

f:id:digitalnagasaki:20170918005354j:plain

（図3）

そうすると、以下のように、唐糸草紙が開きます。画面下部のサムネイル画像が右から左の順番に並んでいること、ページめくりの矢印をクリックすると読んでいく方向にページがめくられていくことを確認してみてください。これが、その右⇒左ページめくりです。同様にして、唐糸草紙以外の本を開いてみると、ほとんどは、左⇒右ページめくりになっていると思います。それもよかったら試してみてください。

f:id:digitalnagasaki:20170918005507j:plain

（図4）

なお、この右⇒左ページめくりは、IIIF Manifestにその旨を上述のように記載したものでなければ対応できません。今のところ、比較的大きめのコレクションとしては、新日本古典籍総合データベースの数万件の IIIF manifestがこれをきちんと記述しております。たとえば、以下のIIIF Manifestを読み込ませれば右⇒左ページめくりになってくれます。

http://kotenseki.nijl.ac.jp/biblio/200021974/manifest

あるいは、やや手前味噌で恐縮ですが、東京大学附属図書館万暦版大蔵経デジタル版もこれに対応しています。これも、規模としては上記のデータベースほどではありませんが、19万枚ほどの画像を公開しています。

https://dzkimgs.l.u-tokyo.ac.jp/kakouzou/042_1/manifest3.json

それから、規模はやや小さいですが、中野区立図書館デジタルアーカイブも右⇒左ページめくりがきちんと表示されるようです。

http://archive.nakano-library.jp/manifest/807509464_manifest.json

※これらのURLはIIIF maniefstファイルで、資料画像そのものを表示してくれるものではありません。これらが指し示す資料画像をビューワに表示させるには、画面左上の「スロット数の変更」というアイコンにカーソルをあわせるとサブメニューがでますので、そのなかで「新しいオブジェクト」をクリックします。そうすると、上の「図3」のような画面になります。そこで、表示したいURL（たとえば上記のIIIF manifestのURLのいずれか）を画面右上の「URLで新規オブジェクト追加」の欄にコピペして、「読み込み」ボタンをクリックしてください。そうすると、そのIIIF manifestの対象となる資料のサムネイル画像が表示されます。そうしましたら、そのサムネイル画像をクリックすると、表示されます。

次の課題としてのアノテーション縦書き表示

　そのようなことで、ようやく、日本語資料のデジタルアーカイブで普通にできていたことが、また一つ、IIIF対応でも普通にできるようになりました。そこで次の課題として気になってくるのは、アノテーションが縦書き表示できないのか、という件です。たとえば、上の唐糸草紙の例では、「図4」画面左上の赤く囲ってあるアイコンをクリックしていただくと、アノテーションとして付与された翻刻テクストが表示されるようになっています。しかし、この翻刻テクストは、下記のように、横書きになってしまっています。

f:id:digitalnagasaki:20170918005542j:plain

これは、この場合、縦書きになってくれないと少々不便です。もちろん、HTML5では縦書き表示に割と簡単に対応できますし、Miradorをちょっとカスタマイズすれば縦書き表示は割と簡単に実現できます。しかしながら、汎用ビューワで縦書き表示ができれば、その方が明らかに有益です。これをどういう風に実装すべきか、というのは慎重な議論が必要であり、すくなくとも、右⇒左表示のように、縦書きであることの宣言をIIIF Manifestの中に入れてしまってよいのかどうか、ということも慎重に検討する必要がありますが（筆者としては、今のところ、個々のアノテーションにそれぞれ縦書き表示のタグを入れることでなんとか対応できないかと思っているところです）、次は、どなたか他の人がこれに取り組んでくださるとありがたい、と思っております。多少のお手伝いはいたしますので、どうかよろしくお願いいたします。

2017-09-09

京大附属図書館IIIF対応と新日本古典籍総合データベースの右⇒左対応

IIIF Mirador IIIF応用

ついに、待ちに待っていた京都大学附属図書館からのIIIF対応デジタルコレクションが公開されたようです。「京大貴重資料デジタルアーカイブ」だそうです。素晴らしいことです。

　京都大学附属図書館は、東京大学大学院人文社会系研究科人文情報学拠点に続いて、日本からIIIFコンソーシアムに加盟した、まだ日本には2つしかない組織の一つであり、筆者としては、ここからのIIIF対応コンテンツの公開を心待ちにしていたのでした。多様な資料がIIIF対応で公開されていて、見ているとなかなか楽しいものですね。私の好きな南瞻部洲万国掌菓之図も公開されていて、ちょっとテンションがあがります。コンテンツの豊富さもさることながら、公開に際しては、MiradorとUniversal Viewerという、IIIF対応の二大ビューワのどちらにも対応している上にIIIF Dropアイコンも用意してらっしゃるので、至れり尽くせりの対応ですね。

さて、さっそく、他機関の画像とも対比してみようかと、こちらの宇津保物語を国文学研究資料館の新日本古典籍総合データベースの宇津保物語をちょっと並べてみました。

f:id:digitalnagasaki:20170909021419j:plain

なかなかいい感じですね。ただ、ちょっと右側が暗めなので、Miradorの画像表示調節機能を使ってちょこっと明るくしてみますと・・・

f:id:digitalnagasaki:20170909022232j:plain

本来、こういう風にあまり輝度や彩度をいじるのはあまり好ましいことではないのですが、一応、こういう風にして見やすくすることもできます。

さて、ここで使っているビューワは、先月末に公開された東京大学総合図書館万暦版大蔵経（嘉興蔵）デジタル版のMiradorです。すでにIIIFについてよくご存じの方や、このブログをずっと読んできてくださった方、私のIIIF講習会に参加された方々はよくご存じかと思いますが、IIIF対応で公開された画像は、IIIF対応ビューワなら、どこでも表示できてしまいます。自分の好みの機能を持ったビューワに、外の見たい画像を読み込ませることができるのです。

　ここで表示しているMiradorは、私が改良したもので、ページめくり方向を、日本の縦書き資料にあわせて右から左にめくっていったり、サムネイル画像を右から左に並べたりすることができます。ただし、それにあたっては、IIIF Presentation APIに規定されている表示方向の設定を記述しておく必要があります。viewingDirecitionというパラメータがありますので、それをright-to-leftとしておくと、そのパラメータを読み込んで右⇒左のページめくり等に対応するようになっています。西洋の資料や横書き資料はleft-to-rightとしておけば左から右にページめくりできます。

　このビューワに読み込ませたのは、日本の縦書き資料なので右から左に読んでいきたい、ということなのですが、新日本古典籍総合データベースの方は、きちんと右から左に読んでいくことができました。このIIIF マニフェストファイルを見てみると、"viewingDirection":"right-to-left"となっているのが確認できました。この仕事は国文学研究資料館のプロジェクト「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」によるもので、システム構築はインフォコム株式会社が行っているようです。新日本古典籍総合データベース自身が実装しているビューワでは右から左へのページめくりにはまだ対応していないようですが、IIIF マニフェストファイルを先行してきちんと対応させておくことにより、上記のような形で、対応可能なビューワを誰かが用意できればきちんと表示されるようになります。いわば、潜在的な可用性を高めることにつながることです。もちろん、日本語縦書き資料を右から左に読んでいけることは、IIIFの日本や東アジアでの普及にとってはとても大事なことですので、その点だけをもってしても価値があるのですが、このように、今はできなくてもいつか誰かが活用してくれるかもしれない情報を、コストに見合う範囲できちんと残していくという姿勢は、デジタルアーカイブを持続的に発展させていく上で大切なことですので、個別に見ると小さなことですが、こういう姿勢は忘れないようにしていきたいものです。

　さて、新日本古典籍総合データベースの話が出てきましたので、もう少し、今度は万暦版大蔵経デジタル版との対比もしてみましょう。基本的に、漢文の仏典ということになりますので、同じものの異なる版、というのが東アジア全域にわたって様々に残されてきています。たとえば、以下のような感じです。

f:id:digitalnagasaki:20170909013820j:plain

さらに、万暦版大蔵経デジタル版は、ビューワをもう少しカスタマイズしていまして、目次欄の「SAT DB」という箇所をクリックすると、対応するテキストデータが画面右側に縦書きで表示されるようになっています。たとえば以下のような感じです。

f:id:digitalnagasaki:20170909013856j:plain

テキストデータは、大正新脩大藏經の全文テキストデータベースであるSAT大蔵経テキストデータベースから引っ張ってきておりますので、異読を含む脚注もあります。異読のうち「明」と注記されているものは万暦版大蔵経ですので、ほぼそのままデジタル画像と対応します。たとえば以下のような感じです。

f:id:digitalnagasaki:20170909014113j:plain

このようにして見比べていくと、やはり右から左にページをめくっていけるようになっていないと操作性の面ではなかなか厳しいものがあります。全体として、右から左へのページめくりはなんとか対応していきたいところですが・・・

　先日、ハーバードの燕京図書館の中国古典籍コレクションのIIIF対応画像のなかにも万暦版大蔵経が一部含まれていることに気がついたので、比較できるビューを作ってみました。たとえば以下のような感じです。

f:id:digitalnagasaki:20170904164803j:plain

このビューは、たとえばこちらにアクセスしていただいて、目次欄の「SAT DB」をクリックしていただくと、テキストデータの下に「Harvard」と注記されたIIIF Dropアイコンが表示されます。そこで、ウインドウを一つ増やして、そこにこのHarvardのIIIF Dropアイコンをドラッグ＆ドロップしていただくと、対応するページ（キャンバス）が表示されるようにしてみています。

　万暦版大蔵経デジタル版の今後の課題の一つとしては、このアイコンを増やしていくことが重要であると考えておりますが、それはともかく、

　このHarvardのものを表示してみたところ、viewingDirectionがleft-to-rightになっていることに気がつきました。いくつか見てみたところ、大体そういう感じになっているようでしたので、さっそく、HarvardのIIIF担当者に連絡をとってみたのでした。ところが、中で議論したところ、右方向か左方向かというフラグがないのでうかつに変更ができない、という話になってしまったようで、残念ながらとりあえずお蔵入りとなってしまいました。中国古典籍だとほとんど右⇒左なのではないか、とは主張してみたのですが、残念ながら反応は今ひとつでした。

　実は、京大附属図書館のIIIF manifestも、上記のように表示してみたらページめくりが左⇒右となっていて、IIIF manifestを見てみたらviewingDirectionがないので、あれれ？と思ったのですが（viewingDirectionのパラメータはSHOULDと規定されているので、なくても一応大丈夫です）、京大附属図書館のIIIFコンテンツの場合、右方向と左方向の資料が混在しているようにも思えますので、この場合、仕分けが結構難しくてちょっとやむを得ない状況なのかもしれない、と思ったところでした。まだ試験公開版とのことですので、本公開までに、余力があったらご対応いただけるとありがたいところです。

　ちなみに、外から見ているだけなので実際の仕組みがどうなっているのかわからないのですが、国デコ（国立国会図書館デジタルコレクション）では、サムネイル画像の一覧表示に際して、古典籍系は右から左、近デジ由来のものは左から右、という風にしているようにも見えました。きちんとフラグをつけてくれているといいなと思いつつ、しかし、数十万点もあるので、もし、今、フラグをつけていないのなら、もうそのままにしておいてもらいたいような気もしました。今からつけるとしたら、それにかかる少なくない人件費は、やはり税金から支出されることになるのですから、それならばむしろ、もっと別なことに予算をかけていただいて、読んでいく方向については、手でいちいちフラグをつけていくのではなく、何か別の方法でなんとかするように考えた方がよいのではないかとも思っているところです。

　ということで、ちょっと長くなってしまいましたが、京都大学附属図書館のIIIFワールドへの仲間入りを、改めて心よりお祝いしたいと思います。そして、これからも引き続き、頑張っていただけたらと思っております。

2017-08-26

デジタルアーカイブにおけるテクスト資料の扱い: oXygenで日本語解説付きTEIガイドラインを利用する

TEI

ここまで、「デジタルアーカイブにおけるテクスト資料の扱い」ということで、TEIガイドラインの解説をしてきました。しかし、実際に使ってみる話をまだ全然書いておりませんでしたので、今回は、実際に使ってみる手順のはじめのところについてご紹介したいと思います。このブログの読者の方々には日本語解説付きの方がわかりやすい人が多いと思いますので、日本語解説付きで利用するにはどうしたらいいか、ということもここで御説明しておきます。

まず、TEIガイドラインをテクスト資料に適用するためには、XMLエディタを利用することがほぼ必須です。Windowsのメモ帳みたいなもので頑張るという人も世の中には結構おられるのですが、TEIガイドラインみたいにかなり複雑化したXMLサブセットを簡単に扱おうとするなら、XMLエディタがなければ「視認性が悪くて使えない」ということになってしまうと思います。

逆に、TEIガイドラインでは、複雑化したXMLサブセットを簡単に使えるようにするために色々な工夫をしています。なかでも、スキーマファイルをきちんと用意した上にカスタマイズができるWebアプリを開発公開しているという点はなかなか素晴らしいと思います。

さらに素晴らしいのは、このスキーマファイルに日本語訳が付されていることです。これは鶴見大学の大矢一志先生のお仕事です。これを用いることで、XMLエディタ上でタグ（エレメント・アトリビュート）の解説を日本語で確認しながらマークアップを行うことができるようになっています。

しかしながら、「ではどうやって日本語解説を使うの？」「そもそもどうやってXMLエディタを使ってTEIマークアップをするの？」等々、色々な疑問があると思います。そこで、以下にそれについてご紹介していきます。

まず、XMLエディタ oXygenですが、これは公式サイトから30日間お試し版をダウンロードできます。Javaで書かれているので、WindowsでもMac OSでも、Linuxでも普通に使えます。ダウンロード時にはそれぞれの版のためのダウンロードページがありますが、簡単インストールするためのインストーラ付きということになっていますので、自分のOSにあったものをダウンロードしてください。Windowsが64bitか32bitかについては、よくわからない場合は64bit版をダウンロード＆インストールしてみて、うまくインストールできなければ32bit版を試してみるということでもよいのではないかと思います。

oXygenは、ライセンスキーがないと動きません。すぐに購入するのはちょっと難しいと思いますので、まずはトライアルライセンスキーを入手しましょう。こちらのページから入手できるようになっています。

oXygenをダウンロードしてインストールすると、初回起動時にライセンスキーを聞かれます。ライセンスキー入力欄に、入手したキーをコピー＆ペーストすると、普通にoXygenが起動します。

さて、いよいよです。まずは、TEI/XMLで「新規作成」してみましょう。メニューバーの「ファイル」⇒「新規作成」を選ぶと

f:id:digitalnagasaki:20170826061308j:plain

以下のようなダイアログが現れますので「フレームワークテンプレート」⇒「TEI P5」⇒「All」を選んで「作成」ボタンをクリックしてみましょう。

f:id:digitalnagasaki:20170826061352j:plain

そうすると、以下のように、TEI/XMLファイルのテンプレートが表示されます。あとは、適宜、テキストやタグを入力していくことになります。まずは、タグの解説が英語のままですが、ちょっと試してみましょう。

f:id:digitalnagasaki:20170826061613j:plain

まず、例えば21行目の「Some text here.」というところに、以下のようにちょっと文章を書き込んでみましょう。

f:id:digitalnagasaki:20170826061819j:plain

それから、21行目のの直後に<perと入力してみましょう。そうすると、その文字列を含むエレメントのうち、その箇所で使えるものをTEI/XMLのサブセットのエレメントの中から探し出してリストした上に、それぞれのエレメントの使い方の解説も以下のようにポップアップで表示してくれます。カーソルの上下キーで候補を選べるようになっており、カーソルがあたっているエレメントの解説が右側のポップアップに表示されていくようになっています。英語が得意な人や、英語中心で研究をしている方々にはこれで十分に便利だと思います。英語圏の人たちにとってはとても便利な機能です。しかし、この解説が日本語になってくれるととても便利です。そこで出てくるのが、大矢先生が作ってくださった日本語訳です。

f:id:digitalnagasaki:20170826061854j:plain

oXygenは、TEI/XMLのサブセットのルールを書き込んだ「スキーマ」ファイルを標準で内蔵しています。そのファイルを読み込むことで、上記のように、「そこで使えるタグの候補」をリストしたり、それぞれの解説を表示したりできるようになっています。したがって、「スキーマ」ファイルのなかのユーザに対する表示部分が日本語に訳されていればよいということになります。大矢先生が作ってくださった日本語訳版のスキーマファイルは、公式サイトとしてはTEI Romaのサイトから入手できます。が、ここでのとりあえずの目標は、日本語解説を表示することですので、TEI Romaのサイトで作成した日本語版スキーマファイルをこちらに用意してみました。とりあえず、ダウンロードして使ってみてください。入手方法はこの記事の下の方にて改めて解説しますので、自力で公式サイトから直接入手したい人はそちらをご覧ください。

この日本語版スキーマファイルはtei_al_ja_320l.rnc というファイル名になっていますが、ファイル名はなんでも大丈夫です。ただし、拡張子は.rncにしておいてください。では、このファイルをどうするのかと言いますと、oXygenに戻って、メニューバーの「文書」⇒「スキーマ」⇒「スキーマの割り当て」を選んでください。

f:id:digitalnagasaki:20170826063605j:plain

そうすると、以下のようなダイアログが表示されますので、ここで、「URL」の行の右の方にあるフォルダアイコンをクリックして、今回ダウンロードした.rncファイルを指定してください。それから「OK」をクリックすると、

f:id:digitalnagasaki:20170826063653j:plain

以下のように、4行目のところに、今回指定した.rncファイルのパスが書き込まれます。これでOKです。

f:id:digitalnagasaki:20170826063724j:plain

そうしますと、以下のように、エレメントの解説が日本語で表示されるようになります。

f:id:digitalnagasaki:20170826062217j:plain

それだけでなく、アトリビュート（属性）に関しても、エレメントを入力した後にスペースを入力すると候補が表示されます。

f:id:digitalnagasaki:20170826062304j:plain

TEIガイドラインを見ると、あまりの膨大さにめまいがしてくると同時に、海外先進国の人たちはこなものを読みこなしてマークアップをしているのか、と思ってしまいそうですが、実際には、このようにして、割と簡単に使える道具立てが用意されていて、みなさんこういうものを使ってらっしゃるようです。これだったらできるかも・・・、あるいは、誰かにやってもらえるかも・・・と思ってくださる人もおられるのではないかと思いますが、いかがでしょうか。

日本語スキーマファイルを公式サイトから入手する

さて、後述するとしていた、日本語スキーマファイルの公式サイトからの入手方法についても御説明しましょう。これには、TEIスキーマをカスタマイズするためのWebアプリ、TEI Romaを利用します。TEI Romaにアクセスすると、以下のような画面になると思います。ここで「Reduce」を選んで「Start」ボタンをクリックしてください。

f:id:digitalnagasaki:20170826063331j:plain

次に、「Laugage」タブをクリックして「日本語」を選択して、さらに「Save」をクリックしてみてください。これで、スキーマを日本語解説に切り替える設定は終了です。

f:id:digitalnagasaki:20170826063439j:plain

次に、これをスキーマとしてダウンロードしてパソコン上に保存しましょう。以下のように、「Schema」タブを選んでから「Generate」ボタンをクリックしてください。しばらく待つと、.rncファイルをダウンロード＆保存するダイアログが表示されますので、ファイル名を適当につけて、保存します。これで、日本語版スキーマファイルの入手は完了です。上記のように、作業中のTEI/XMLファイルにこのスキーマを割り当ててみてください。

f:id:digitalnagasaki:20170826063515j:plain

終わりに：TEIのカスタマイズについて

最後に、このTEIのカスタマイズとTEI Romaについて少しだけ解説させていただきます。TEIは、このブログにてこれまでにも触れてきたように、基本的に、コミュニティがルールを作るという姿勢で運用されているものであり、「このルールを使え」と押しつけるものではありません。ユーザが必要だと思ったらルールをカスタマイズできますし、カスタマイズしたルールを全体に適用しようという議論を始めることもできます。しかし、ルールをカスタマイズすると言っても、カスタマイズしたルールを手元の作業に簡単に応用できるようにするのは通常ではなかなか困難です。そこで、TEIコミュニティでは、このTEI RomaというWebアプリを用意して、カスタマイズした場合でも簡単に手元のファイルのそのルールを適用して作業できるようにしているのです。ではどのようにすればカスタマイズできるのか、そのメリットは、というようなことは、またおいおいご紹介していきたいと思います。

2017-08-16

デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法

TEI

前回記事に続けてもう一つ、デジタルアーカイブにおけるテクスト資料の扱いについての記事です。

ここまで、このブログでTEIに関する話を読んできていただくと、「そんなに細かいタグを付けるのは大変だ」と思ってしまわれる人も結構おられるのではないかと思います。しかし、TEIでは、必ずしも細かく深いタグをつけていかねばならないというものではなく、浅いマークアップ（タグ付け）でもTEIであると言えますし、それでも一定の機能を果たすことはできます。

特に、こういったことについて関心があるのは、やはり図書館の方々のようです。デジタル化はするが、内容にあまり深入りすることははばかられる、あるいは、時間的コスト的に内容のタグ付けなどはさすがにちょっと無理、というような状況は、世界中のどこにでもあるようで、しかし、それでもテキストデータを書誌情報とともにうまく流通させるにはTEIを使っておくことが後々有益だろう、ということで、図書館の方々が中心となって、Best Practices for TEI in Libraries というガイドラインが作成されたようです。

ここでは、TEIでのマークアップのレベルを4つに分けています。それをラフに翻訳してみると、

Level 1: OCRで生成されたテクストデータ。ページ画像に紐付けられており、ページ画像なしで電子テクストとして単独で用いられることを意図したものではない。エンコーディング（タグ付け・マークアップ）は全文検索を補助するために行われる。

Level 2: OCRで生成されたテクストデータであり、ページ画像に紐付けられている。ただし、Level 1と異なり、テクストの領域や見出しなどはきちんとマークアップされている。

Level 3: テクストデータは、OCRか手入力のいずれかによって作成されている。テクストの構造がある程度マークアップされており、ページ画像はなくても利用できるものもある。

Level 4: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、学生や研究者、一般の読者が読むにあたり、ページ画像がなくてもテクストデータだけで利用可能なもの。

Level5: テクストデータは、OCR結果を人手によって修正したものか手入力によって作成されたものであり、Level 4と同様に、ページ画像がなくても利用可能なものである。それに加えて、専門知識を持った担当者による人手での充実したタグ付けが行われたもの。

という感じのようです。つまり、筆者があれこれ書いてきているTEIの利用法のほとんどは、Level 5 の話であって、そうではないマークアップの仕方もこのように色々考えられているということです。具体的にどうマークアップするか、ということは、事例が色々と上記のページに載っていますので、まずはそちらをご覧ください。

　また、こうなってくると書誌情報をどうするのか、という話が気になりますが、上記のページの

4.1.6. Element and Attribute Recommendations for the TEI Header

というチャプターでは、MARCとTEIのタグとの対応付けの仕方が載っていますので、そちらをご覧ください。基本的に、MARCから自動変換できるのではないかと思います。

こうしておくと、何が良いのかと言えば、一つの資料（テクスト）単位でデータが流通した場合でも、メタデータをきちんと一緒に流通させられるということと、それから、修正した場合に修正した人がその修正に関する情報も機械可読な形で記述した上でさらに流通させられること、は、とりあえずすぐに思いつくメリットです。基本的に、TEIはデータの追記と処理がしやすいので、可用性の高さという観点から色々なメリットが出てくるだろうと思います。

　図書館等での内容にあまり踏み込まないデジタルアーカイブ公開の際に、OCRや翻刻をするなどしてテキストデータが何らかの形で付与され、それがオープンなライセンスの下で公開されることもあると思います。そのような場合に、このようにして上記のそれほど高くないLevelにて公開しておけば、手間をあまりかけずにデータの有用性を高めることができるのではないでしょうか。

ちなみに、日本での事例はどうなのかと言えば、もう3年ほど前になりますが、筆者が国会図書館デジタルコレクションの資料を共同翻刻するシステムを開発した際に、NDLのメタデータのごく基本的なものを抜き出して、翻刻したテクストデータとあわせて上記のLevel 2と3の間くらいのTEIマークアップファイルを生成できるようなものも作ってみております。

たとえば以下のテクストデータを

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562

以下のように変換してみています。なお、下記のページでは、レスポンスヘッダのContent-TypeをXMLにしていないのでソースファイルをご覧ください。

http://www.dhii.jp/nagasaki/hondigi/maketeifile.php?ndlid=info:ndljp/pid/781562&format=teibp

まだ色々不十分な感じもありますので、今後さらに精進していかねばと思っておりますが、とりあえずこれだけでも、テキストデータと書誌情報、それから画像（のURL）を一定のルールで比較的容易に共有できますので、そこに有用性を感じていただくことはできるのではないかと思っております。

2017-08-16

デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報

TEI

　やや間が空いてしまいましたが、先日より何度かご紹介しているTEI (Text Encoding Initiative)に関するご紹介の続きです。

先週、カナダのモントリオールにて開催されたDigital Humaities 2017というカンファレンスで、TEIコミュニティが賞をもらいました。そこで受賞記念スピーチがあったのですが、1980年代終わりにTEIがどういう状況で生まれてどういうことを目指してきたか、ということが創始者達によって語られました。詳しくは別の機会にご紹介させていただきますが、ここで一つ、なるほど、と思ったのは、「全文テクストデータから書誌情報がなくなってしまうことがあるので<teiHeader>を取り決めた」という話でした。今はマークアップ言語の利用が普通ですから、たとえば青空文庫を見てみても、書誌情報がタグで記載されています。たとえば以下のような感じですね。

<div class="bibliographical_information">
<hr />
 
底本：「太宰治全集3」ちくま文庫、筑摩書房 
　　　1988（昭和63）年10月25日初版発行 
　　　1998（平成10）年6月15日第2刷 
底本の親本：「筑摩全集類聚版太宰治全集」筑摩書房 
　　　1975（昭和50）年6月～1976（昭和51）年6月 
入力：金川一之 
校正：高橋美奈子 
2000年12月4日公開 
2011年1月17日修正 
青空文庫作成ファイル： 
このファイルは、インターネットの図書館、<a href="http://www.aozora.gr.jp/">青空文庫（http://www.aozora.gr.jp/）</a>で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。 
 
 
</div>

今となってはごく普通にできることですが、マークアップ言語の利用がまだ一般的でなかった環境であれば、こういうことも難しかったでしょうから、きちんとタグを使って書誌情報をつけましょう、ということ自体も、TEIが登場してきた当時には、ルールとして重要だったのではないかと思われます。

また、それだけでなく、TEIでは、書誌情報の書き方も細かなルールを用意しています。古典籍に関しては、すでにこのブログで少しご紹介したことがありますが、青空文庫のような電子テクストに関してもTEIは様々なルールを提供してくれています。もちろん、必ずしもその細かなルールすべてを適用しなければならないというわけではありません。たとえば、上記のものを<teiHeader>で用意されているタグ（エレメント）を使って書いてみると、（ただし「底本の親本」をはしょっていますが）、以下のような感じになろうかと思います。

<teiHeader>
 <fileDesc>
 <titleStmt>
 <title>走れメロス</title>
 <author>太宰治</author>
 </titleStmt>
 <publicationStmt>
 <distributor>青空文庫</distributor>
 <authority>金川一之</authority>
 <authority>高橋美奈子</authority>
 <date when="2011-01-17"> 2011年1月17日</date>
 </publicationStmt>
 <sourceDesc>
 <bibl>
 <author>太宰治</author>
 <title>走れメロス</title>
 <publisher>筑摩書房</publisher>「太宰治全集3」ちくま文庫、
 <date when="1988-10-25">1988（昭和63）年10月25日</date>初版発行
 <date when="1998-06-15">1998（平成10）年6月15日</date>第2刷
 </bibl>
 </sourceDesc>
 </fileDesc>
 <revisionDesc>
 <list>
 <item>
 <date when="2011-01-17">2011年1月17日</date>修正 </item>
 <item> 入力<persName>金川一之</persName>校正<persName>高橋美奈子</persName>
 <date when="2000-12-04"> 2000年12月4日</date>作成 </item>
 </list>
 </revisionDesc>
 </teiHeader>

こうして記述しておくと、テクニカルには、より細かな情報を簡単に取り出すことができて便利だ、という話になります。たとえばLinked Open Dataなどをやっている方々におかれましては、こういうデータが大量に作られれば色々な活用ができそうだとうずうずしてしまわれるのではないかとも思うのですが（もちろん、TEI関係ではそういう研究・実践が様々に行われています）、もう一つ注目しておいていただきたいのは、「電子化の元になった資料の書誌情報」と「電子版の書誌情報（というかメタデータ？）」を別々に書けるようになっているという点です。デジタル化された元資料とデジタルデータをきちんと区別しつつ、それぞれに関して適切に情報提供しようという姿勢は、デジタル学術編集版（digital scholarly edition）を適切に学術の場で共有するにはどのようにすべきか、という議論のなかで生まれてきたものだと思われますが、デジタルアーカイブと元の資料の関係を考えていく上でも色々な示唆を与えてくれているような気がします。