2016-06-30

「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました

このところ、IIIFの紹介に時間をかけてきましたが、今回は、もう一段深く資料を扱うための規格についてのご紹介です。

先にポイントだけ書いておきますと、まさにタイトルの通りです。もう少しかみ砕いて申しますと、人文学資料の中でも、特にテクスト資料に関しては、電子テクストというのがずいぶん前から使われてきています。電子テクストの場合、何はともあれ、皆が同じフォーマットで作った方が何かと便利です。そのためのルールが欧米を中心として1980年代から形成されてきていて、今やデファクト標準化しています。「デジタルアーカイブ」でも翻刻テクストをつけておこうと思ったりした場合、やはりこのルールに乗っておくのが後々何かと便利です。デジタル・ヒューマニティーズ分野の基幹技術の一つであり、Methodological Commons（方法論の共有地）を体現したものであるとも言えます。

このルールは、IIIFがそうであるように、すべてに完全適用できるものではなく、また、工業標準のように完全に確定したものでもありません。このテーマに取り組むコミュニティが形成されていて、その中で、全体に矛盾が生じないようにしつつ、様々なテーマに対応できるようなルールの拡張が続けられてきています。今もなお、新たにもたらされたテーマに対応すべく拡張が行われています。TEIについては、いくつか記事を書いたことがありますので、よかったら下記のURLなどをご参照ください。

TEIとoXygenの初歩 | Digital Humanities notes in Japan

http://nlp.nii.ac.jp/tawc/papers/W05_nagasaki.pdf

しかしながら、日本語資料への対応は未だ十分ではありません。これは、このコミュニティに参加する日本人が少なかったことが直接の大きな理由なのですが、なぜ参加する日本人が少なかったのか、ということを突き詰めていくと、あちらとこちらの課題がそれぞれ見えてきます。それについてはまた別に書くとしまして、長い議論の結果、日本語資料に対応するための環境を整備する分科会（Special Interest Group, SIG）を作ることになりました。TEI協会のWebサイト内にも、下記のように、この分科会がリストされ、これから本格的に始動することになります。なお、分科会の名称がEast Asian/Japanese、となっているのは、日本のテクスト資料が漢字文化圏の伝統と不可分であり、それを追究していくことが同時に東アジア全体のテクストの扱いともかなり重なってくるため、このような名称が今後の広がりを考える上で有益だろう、という判断が背景にあります。

TEI: Special Interest Groups (SIGs)

TEI: East Asian/Japanese SIG

これに関して画期的なのは、これまで特定の言語文化名を冠した分科会を作ったことはなかったので、ついにそこに踏み込むことができたという点でしょう。昨今の日本での「デジタルアーカイブ」の流れにおいても、この機会を最大限活かしていただけたらと思っています。

さて、この分科会での当初の課題は２点です。一つは、日本語に資料に対してこのTEIを適用する場合の、取り組みやすいガイドラインを作成することです。そして、もう一つは、そのガイドラインを作成していくなかでどうしても全体のルールに拡張が必要であるということになった場合に、それを行うことです。特に後者は、それを行うにあたってまずは分科会を作ることがTEIコンソーシアムの慣例の一つなので、そこに向けた第一歩を踏むことができた、ということもできるでしょう。

それから、これまで何度かご紹介してきたIIIFとの関係はどうなっているのかというと、翻刻（テキスト起こし）のところで深くつながっています。すでに結構盛り上がっていまして、IIIFで翻刻タグをつけることができますが、これをどういう風にTEIで表現するか、あるいは、TEIで書かれたものをどのようにIIIFで表現するか、といったことについての取組みが世界各地で始まっています。日本語資料の場合、どちらかと言えばテキスト構築よりも画像化してデータベースを作る方向に力を入れる傾向が強かったように思いますので、IIIFからTEI、つまり、画像に翻刻情報をつけていくところからテクストの構造化の議論に入っていくようにするのが一つの手なのではなかろうかとも思っています。

いずれにしましても、特にテクストを扱っておられる方々におかれましては、この機をうまく活用していっていただけたらと思っております。近々、これに関する会合を予定しておりますので、今後ともよろしくお願いいたします。

2016-06-21

「デジタルアーカイブ」における日本語古典籍＋翻刻とIIIF、そして皆様の取組み

IIIF IIIF応用

このところご紹介を続けている「デジタルアーカイブ」の画像共有のための国際規格、IIIFですが、今回は、日本語古典籍の扱いについての近況と、みなさまの取組みについて、知る範囲で少しご紹介させていただきます。

IIIFではあれができる、これができる、という話をずっとしてきました。一方で、ほとんど西洋の資料を中心に展開してきた話でしたので、日本や東アジアの資料にうまく対応できるのか、というところは気になっていたところかと思います。

規格に関する課題も、深く追求していくと色々あるのですが、それはかなり深い問題にまでつながるような話でもあり、文字の問題に行き着いて、Unicodeをどうするかということになってしまったりして、そもそも現在のコンピュータ上でうまくできるのかどうかという話になってしまうことも少なくないと思います。比較的浅いところでは、Linked Dataとして作られているにもかかわらず実質的にアクセスできないURIが大量に生成されてしまうという点を複数の人が問題視していますが、これはこの規格の問題というよりは運用上の問題であり、かつ、この規格が下敷きとしている別の規格では本来はそうしてはいけないということになっているのではないかと思います。（この点、私が運営するシステムでもそうなってしまっているので早急な対応が必要です。）

以前にも書いたように、色々な課題は基本的にコミュニティとして解決しながら先に進めていくということになっているようですので、やはり、一度対応させたらそれで終わり、ではなく、何らかの形で継続的にコミットしていけるような体制を作っていく必要があろうかと思います。

それはともかく、ここでは、規格はとりあえずこのままでなんとか対応するという前提で、表示の問題に限定して見ていきましょう。もちろん、ソフトウェアがフリーなので、各自で自由に自分達の資料に対応できるように改良してしまえば良い、というのがこの場合の建前なので、実際にソフトウェアを改良して対応させてみました。

具体的には、主にハーバード大学・スタンフォード大学等で開発されているIIIF対応ビューワ、Miradorを、突貫工事的に、縦書きのタグを表示させたり、左から右にしかページ遷移できなかったものを、右から左であるという設定をmanifestファイルにルール(この場合、 Presentation API )通りに書けば、それが反映されるようにしてみました。具体的には、下記のURLにてどういう風になっているかを見てみてください。

Mirador Viewer 縦書き右左対応版

（このMiradorのダウンロード）

…と、ちょうどこれを書いている時にスタンフォードの人がメールで知らせてくださったのですが、右左対応版も含むレイアウト全般に関する大幅な改良が施されたMiradorが開発中なのだそうです。上記のものは、その本家のきちんとしたものが公開されるまでの暫定的なものということになりますが、

このようにして、必要に応じて色々修正できること
本家としてはきちんとグローバルな文化資料に対応すべく改良を続けていること

という2点をご理解いただけますとありがたいです。

さて、上記のMiradorビューワでは、翻刻テクストがアノテーションとして表示されるようになっていますが、このデータは、カルガリー大学のX. Jie Yang 先生が入力してくださったものです。Miradorの場合、ライセンス関連の表示は右上のℹボタンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160621035910j:plain

入力システムは、Miradorではまだちょっと書きにくかったので、別途、OpenSeadragonを利用してざっと作成しました。下記のようなものです。

f:id:digitalnagasaki:20160621000817j:plain

もし、これを使って国文研データセットへの翻刻やタグ付けなどやってみたいという方がおられましたら私までお声がけください。ユーザ登録さえすれば誰でも使えます。（というのをクラウドソーシングと呼んでいいかどうかはちょっと悩みどころです。）成果はすべて公開されてしまいますが、すべてのタグに「誰がいつつけたか」の情報が付加されますので、attributionはきちんと保持されます。

私のところは、こういう感じで細々と合間合間に少しずつ色々進めておりますが、最近、日本でもIIIFへの取組みが徐々に広がりを見せておりまして、口頭でも色々なところで採用や採用への検討についておうかがいしているのですが、現在Webで見られるものに以下のものがあります。

神崎正英さんによる外部画像へのアノテーションシステム / Image Annotator

画本虫撰　Image Annotator

大正新脩大藏經図像部第9巻　Image Annotator

京都大学人文科学研究所守岡知彦先生による拓本文字データベースへの応用 / EsT image-resource

EsT image-resource = rep.id=zinbun...takuhon...kaisei...H1002...xywh=4298,2734,96,107

一般社団法人学術資源リポジトリ協議会によるデモサイト

IIIFのデモサイトの解説

Mirador Viewerによるデモ

実はあともう一カ所、しばらく前からIIIF Image APIに対応している組織があるそうなのですが、アクセスの仕方がわからないので、確認ができてご紹介しても良いということになったらご紹介させていただきたいと思います。

ところで、上記の翻刻を見て、気がついた人もおられると思いますが、あのままではテクストとしてはあまり良い案配ではありません。それをなんとかしようという動きがTEI関係で始まっておりまして、個人的にも、TEI とIIIFをいかにうまく連携させるかということに取り組んでおります。基本的に、タグをつけてもらったら、それをTEI P5 Guidelinesの<sourceDoc/>に自動的にマッピングしてしまって、さらに、リニアなテクストにも変換するというオーソドックスなアプローチを考えています。それについては9月末にウィーンで開催されるTEI会議で報告する予定なのですが、国内でもいずれどこかでご報告させていただけたらと思っております。ご興味がおありの方はぜひお声がけください。

というようなことで、引き続き、よろしくお願いいたします。

2016-06-06

仏教図像DBで学ぶ「デジタルアーカイブ」の国際規格IIIF

IIIF IIIF応用

前回の記事に書いたように、すでにフランス国立図書館のgallicaやDPLAをはじめ、様々な大手「デジタルアーカイブ」公開機関で採用され、国際的に採用が大きく広がりつつある、国際的な画像共有のための枠組みIIIF（International Image Interoperability Framework、トリプルアイエフ、と呼ばれています）ですが、今回の記事は、これに準拠して公開された仏教図像DB、SAT大正蔵図像DBを手がかりに、現時点でIIIFができる事柄を実践的に学ぶことを目指してみましょう。

SAT大正藏図像DBは、SAT大蔵経テキストデータベース研究会（代表・下田正弘東京大学教授）により、2016年5月に試験公開されましたが、その後、2016年6月3日に正式公開に至りました。ありがたいことに、正式公開とほぼ同時に、IIIFの公式サイトにも紹介していただきました（紹介記事、紹介サイトリスト）。元になった資料は、大正時代末期から昭和初期にかけて刊行された『大正新脩大藏經』100巻のうちの12巻分、大正新脩大藏經図像部（編）というもので、仏教に関する尊格や儀礼等の解説とそれに伴う図像が主に収録されているものです。これを、1頁分あたり6000万画素でデジタル撮影し、日本美術史の研究者43名が全国各地からWebコラボレーションシステムを通じて最初の2巻分の図像にタグをつけたものが、現在のSAT大正藏図像DBです。「デジタルアーカイブ」には色々な定義があるのでこれがそうだ・そうでないとは言い切れないのが残念ではありますが、広い意味では「デジタルアーカイブ」の一種と言えるものです。そして、公開にあたり、IIIFに準拠する形で公開しています。

　SAT大正藏図像DBでは、IIIFに準拠したことで、特別なシステム開発をすることなく以下のようなサービスを提供することができています。

簡便なフリーソフトにより画像の拡大縮小機能を提供
簡便なフリーソフトにより画像の一部に対するタグを表示
色々な画像ビューワ上で公開画像を表示
（各地の画像ビューワでタグ付けが可能）
各地のIIIF対応画像を同時に表示できるようにする機能を提供

さらに、このIIIF及びその代表的なビューワであるMiradorが提供する機能を応用することで下記のことを実現しています。

タグによる画像の特定箇所の検索
画像中の検索でヒットした箇所を拡大表示
上記の拡大表示を複数同時に表示
タグ内の特定テクストをクリックすることによる検索
漢字を入力せずにローマ字での読みや英単語を入力して検索

IIIFは、今のところは公開側にとってのメリットが大きいと言われていますが、現時点でも利用者側にとってのメリットはそれなりに存在しており、今後、IIIFの普及に伴って利用者側のメリットはどんどん大きくなっていくと思われます。そのようなことで、まずは主に利用者側のメリットという観点から、使い方とともにざっと見ていきましょう。

１．簡便なフリーソフトにより画像の拡大縮小機能を提供

http://dzkimgs.l.u-tokyo.ac.jp/SATi/images.php?vol=12b02

つまり、たとえば、こんな↓曼荼羅の画像を

f:id:digitalnagasaki:20160605163114j:plain

こんな風↓に拡大したり縮小したりできます。割とすいすい動きます。

f:id:digitalnagasaki:20160605163250j:plain

２．簡便なフリーソフトにより画像の一部に対するタグを表示

画像の一部に対してつけたタグを表示することができます。たとえば下記のような感じです。

f:id:digitalnagasaki:20160605164430j:plain

いわゆる絵引きなどとも呼ばれるものですが、ここでは各地の研究者の方々がWeb上でつけた、各図像についての情報がタグ上に表示されます。タグの表示は、画像上のタグの対象領域をマウスオーバーしたときに行われるようになっています。ここでは、タグは、IIIF Persentation APIに沿った形式で書かれていなければなりません。そうすると、対応ビューワに画像を読み込ませた時に自動的にタグを表示してくれます。

３．色々な画像ビューワ上で公開画像を表示

IIIFのImage APIとPresentation APIに準拠した画像の公開の仕方をしていると、色々な画像ビューワに画像を読み込ませることができます。ここまで見てきたのは、SAT大正藏図像DBで標準ビューワとして採用しているMiradorというビューワです。これは、主にスタンフォード大学とハーバード大学によって開発されているもので、おそらく現時点ではもっとも先進的なIIIF対応ビューワではないかと思います。が、他にも色々なIIIF対応ビューワがあり、それぞれ、manifest URIを読み込ませることで画像を表示したりすることができます。基本的には、IIIF manifest ファイルのURL/URIがわかれば、あとはそれぞれのビューワにそれを読み込ませるだけで、それぞれに利用できます。manifest URIは、SAT大正蔵図像DBでは、①ビューワの右上の方にある画像情報表示ボタンをクリックすると②下記の場所に表示されるようになっています。

f:id:digitalnagasaki:20160606085107j:plain

余談ながら、他の例として、たとえば、バチカン図書館の「デジタルアーカイブ」では下記の場所に表示されるようになっています。（このビューワは、NTTデータが頑張って独自に作っているものと想像されます。）

f:id:digitalnagasaki:20160602163433j:plain

フランス国立図書館のデジタルリポジトリ gallicaでは、どこを見ればmanifest URIを得られるのかよくわからないのですが、画像のURLからIIIF manifest URIを得る変換ルールを知ったので、それでなんとかしています。すでに前回のブログにも書いていますが、gallicaのデジタル化資料のURLの /ark: の前に/iiifを入れて、URLの最後に /manifest.json をつけるとその資料のIIIF manifest URIを取得できるのだそうです。

たとえば、下記はフランス国立図書館gallicaから公開されている北斎の絵のmanifest URIです。

http://gallica.bnf.fr/iiif/ark:/12148/btv1b10526554g/manifest.json

では、いくつかの例を見ていきましょう。Miradorと並んで広く用いられている有力なビューワに、Universal Viewerというものがあります。これは、ウェルカム財団、英国図書館等によって開発されているもので、画像だけでなく様々なメディアを扱えるという特徴を持っています。普通に表示するだけなら、とりあえず下記のリンクにて閲覧してみてください。

Universal VIewerで曼荼羅画像

Universal Viewerは、ダウンロード機能や「見たまま画面を共有」機能があり、単に画像を見たいという場合には十分に便利です。上記のURLでも曼荼羅画像の部分表示や全体を丸ごとダウンロードなども可能です。たとえば以下の例では曼荼羅画像の特定箇所の共有をしています。

Universal VIewerで曼荼羅の一部を表示

f:id:digitalnagasaki:20160606084948j:plain

あるいは、下記の画像は、フランス国立図書館のgallicaから公開されている北斎のIIIF対応画像の一部を拡大表示している例です。左下に用意されたアイコンをクリックすると、画像共有のURLを表示したり、画像ダウンロードの選択肢が表示されたりします。

Universal VIewerで北斎の一部を表示（下記のように表示されるはずです）

f:id:digitalnagasaki:20160606083111j:plain

それから、Universal Viewerは、Miradorと並んで「ドラッグアンドドロップ表示」に対応しています。たとえば下記のようにしてIIIF Manifest URIが仕込まれたアイコンがあったら、それをビューワにドラッグ＆ドロップするだけで表示できるという機能です。

さて、次のビューワも見てみましょう。diva-jsというビューワがあります。これは速度が売りらしいです。これは、外部からmanifest URIを読み込むことができず、ビューワのファイルにURIを書き込まなければならないので、とりあえず大正蔵図像の第一巻をご用意してみました。以下のURLにて実際に操作してみてください。

http://candra.dhii.jp/nagasaki/diva-v4.1.0/test.html

f:id:digitalnagasaki:20160605174233j:plain

Leaflet-IIIFというのもあります。これも軽快動作が売りのようです。

http://candra.dhii.jp/nagasaki/Leaflet-IIIF/examples/manifest.html

f:id:digitalnagasaki:20160606090627j:plain

最後に、Miradorに戻ります。これは、Universal Viewerと同様、ユーザが外部から画像を読み込ませることができます。すでにSAT大正蔵図像DBの画像は読み込んでしまっているので、今回は別のところからmanifest URIを持ってきてみましょう。とりあえず、下記、ハーバードミュージアムの仏像写真と、フランス国立図書館の画像のものを持ってきてみました。

http://oculus-dev.harvardx.harvard.edu/manifests/huam:198021

http://gallica.bnf.fr/iiif/ark:/12148/btv1b83001502/manifest.json

そして、次に、画面の左上にあるアイコンにカーソルをあわせると、下記のようにメニューが開きます。ここで「新しいオブジェクト」を選ぶと…

f:id:digitalnagasaki:20160606093347j:plain

そうすると、下記のような画面に切り替わります。ここで、上記のURLをコピーして「URLで新規オブジェクト追加」の欄に貼り付けて「Load」をクリックします。そうすると…

f:id:digitalnagasaki:20160606093555j:plain

下記のように、そのmanifest URIの画像がひととおり読み込まれますので、見たい画像をクリックすると拡大表示されます。もう一つのmanifest URIでも試してみましょう。

f:id:digitalnagasaki:20160606093822j:plain

さて、ここまで見てきたように、色々なビューワに各地の画像を読み込ませることができるわけですが、この場合に、manifest URIを得るだけで、一つ一つの画像を扱わなくても、ひとまとめとして扱うことができるというのは大変に便利なところではないかと思います。

それから、勘のいい人はもうお気づきかと思いますが、「自分のパソコン上のビューワで各地の画像を表示」することももちろん可能です。筆者自身、自分のWindows10やLinux上でMiradorを動かして色々試してみたりもしています。

４．各地の画像ビューワでタグ付けが可能

さて、話題の（？）タグ付け機能です。Miradorの2.1ブランチではこれに対応していて色々なタグをつけられるようになっています。（マニュアルにはちゃんと書いてないのですが、先日、Miradorの開発者の人に直接教えていただきました。）それから、まだ具体的には試していないのですが、スイスのIT企業がオープンソースで作成しているIIIF対応ビューワでも、タグ付けをできるような感じです。（このビューワは、スコットランド国立図書館で古地図を表示するのに採用されているようです）が、ここでは、Mirador 2.1の例をちょっと見てみましょう。

色々端折って、Mirador 2.1を私のところにあるサーバにインストールしてみました。

http://candra.dhii.jp/nagasaki/mirador2.1/mirador/

ここにアクセスして、たとえば、先ほどの北斎のmanifest URIを読み込ませてから、下記の画像の赤丸のついた箇所をクリックしてください。そうすると…

f:id:digitalnagasaki:20160606095418j:plain

下記のような画面になりますので、また赤丸のところをクリックすると…

f:id:digitalnagasaki:20160606095736j:plain

タグ付けモードになり、「どのようなタグをつけるか」色々選べるようになりますので、適宜色々試してみてください。タグの内容の入力の際にはHTMLエディタが下記のように開きます。

f:id:digitalnagasaki:20160606095551j:plain

つまり、フランス国立図書館が公開している北斎画像に対して、私のサーバ上のビューワでタグをつけることができる、ということになります。これもまた、技術的にはずいぶん前から可能だった事であり、実際には、できそうでできなかったことの一つです。今回、IIIFでは、技術的に画期的なのではなくて、実際にできるような仕組みを皆が共通のものとして採用するようになった、というところが画期的なのです。

　なお、上記の私がご用意したビューワではまだサーバ側での保存機能を用意しておりませんので、つけたタグをすぐに皆で共有することはできないと思いますが、そこをきちんと設定すれば、あちこちで色々共有が可能になります。

５．各地のIIIF対応画像を同時に表示できるようにする機能を提供

さて、次に、各地のIIIF対応画像を同時に表示できるようにする機能について試してみましょう。といっても、今のところこれは、Miradorでしかできないですが、むしろ、このような機能を応用したもっと別なソリューションが出てくることを想定しながらこの機能を体験してみるのが面白いのではないかと思います。

まず、SAT大正蔵図像DBに戻ってきてから、先ほどの、左上のアイコンにマウスポインターを重ねるとでてくるメニューにもう一度注目してみましょう。

f:id:digitalnagasaki:20160606093347j:plain

ここで、たとえば「右にスロット追加」というのを選んでみてください。

そうすると、画面が二分割されて、下記のように、右側に空の画面が表示され「アイテム追加」と書かれているはずです。そこで、右側の画面のどこかをクリックすると…

f:id:digitalnagasaki:20160606100949j:plain

また、下記の、マニフェスト一覧画面になります。ここで、たとえばもう一つの曼荼羅画像12b01をクリックしてみると…

f:id:digitalnagasaki:20160606093555j:plain

下記のようになります。これは、2画面で個々に拡大縮小できますので…

f:id:digitalnagasaki:20160606101218j:plain

下記のようにして一部を拡大して閲覧することができます。

f:id:digitalnagasaki:20160606101406j:plain

さらに、一度に細かく画面分割をすることもできます。画面の右上に「レイアウト変更」というリンクがありますのでこれをクリックすると、下記のような「レイアウト変更」画面になります。ここで…

f:id:digitalnagasaki:20160606101721j:plain

マウスカーソルをグリッドの上にもっていくと、下記のように、画面数とレイアウトを選択できます。今回は、２X３の状態でマウスクリックしてみましょう。

f:id:digitalnagasaki:20160606101843j:plain

下記のように、画面分割されます。ここで、あとは個々の画面に画像を読み込んでいけばいいのですが、いちいちコピペは面倒ですね。そこで、上記の「ドラッグ＆ドロップ」が便利です。たとえば…

f:id:digitalnagasaki:20160606102046j:plain

筆者がちまちまとボランティアの片手間仕事で作っているWebサイト、「国文研データセット簡易Web閲覧」では、公開されている古典籍350点のすべてについてIIIFマニフェストのドラッグ＆ドロップアイコンを用意していますので、これをちゃかちゃかと適当にドラッグ＆ドロップして少し見てみると以下のような感じになったりします。

f:id:digitalnagasaki:20160606102423j:plain

これで研究に役立つのかどうかと言われると、これだけだとなかなか微妙なところはありますが、フランス国立図書館の画像はこういう形ですでに使えますので、あとは必要なURIを入手できれば色々役立っていくだろうと思います。とりあえず現時点では、色々な可能性を感じていただけたらと思います。筆者としても、今後、色々な場面でこれを活用していきたいと思っております。写本の利用例としては、前回のブログでも少し触れました。参考画像を一つ提示しておきます。

f:id:digitalnagasaki:20160602163115j:plain

さて、IIIFが提供する基本機能についての説明は大体このくらいです。以下では、それを魔改造（？）して、仏教図像の検索閲覧を使いやすくするために開発した機能について、若干説明いたします。

６．タグによる画像の特定箇所の検索

SAT大正蔵図像DBのタグは、津田徹英氏を中心とした、43人の日本美術史研究者がWebコラボレーションシステム上で共同で付与したものです。タグの内容は津田氏によって作成されたもので、語彙は多少の出入りがあるものの、基本的に決まったメニューから担当者が選択していくという形で作業は行われました。タグの内容は、タグ検索機能からある程度確認できます。下図のように「タグ」という青いボタンがありますので、それをクリックすると、検索用タグ一覧が表示されます。

f:id:digitalnagasaki:20160606103828j:plain

ここで、たとえば、「持物」で「剣」をクリックすると、検索窓に検索式が入力されます。この状態で「検索」ボタンをクリックしていただくと…

f:id:digitalnagasaki:20160606104156j:plain

以下のように、検索結果が表示されます。タグ一覧のダイアログは最小化したり閉じたりできますので、適当に邪魔にならないようにしてください。

f:id:digitalnagasaki:20160606104300j:plain

下記のように、タグ付けされた箇所が頁から切り出されて表示されるようになっています。この画像切り出しには、IIIF Image API を用いています。

f:id:digitalnagasaki:20160606104456j:plain

尊格が結んでいる印についても検索できます。ただし、印の名称について入力するのはかなり困難であると思われたため、「指を伸ばしているか曲げているか」が入力されており、それを以て検索できるような仕組みとしております。たとえば、下記のような感じです。

f:id:digitalnagasaki:20160606105637j:plain

普通に文字列を入力して検索することも、もちろんできます。その場合は、尊格の名称もタグの内容も全部一括して検索します。知っている仏・尊格等の名前で検索してみてください。

　なお、検索の際には、SAT大蔵経DBと同じ、異体字あいまい検索システムが裏側で動いております。たとえば「阿弥陀」で検索すると、自動的に「阿彌陀」でも検索して検索結果を表示します。この機能を実現するにあたっては、京都大学人文科学研究所の守岡知彦氏が開発しているCHISEの文字関係情報を利用しています。

７．画像中の検索でヒットした箇所を拡大表示

　さて、検索結果画面で、青字で表示されているページ番号をクリックすると、そのタグ付けされた箇所が拡大された状態で表示されます。これは、Miradorをややトリッキーな使い方をすることで実現している機能です。下記の例は、「象を台座としている」という検索結果から、ヒットした図像のページ番号をクリックして尊格を表示してみた例です。このように、タグの箇所が拡大表示されます。

f:id:digitalnagasaki:20160606111054j:plain

８．上記の拡大表示を複数同時に表示

　検索結果表示画面では、それぞれの図像にチェックボックスがついています。これらをクリックすると、小さなダイアログが開いて、そこに順次図像のサムネイルがリストされていきます。下図のような感じです。ここで、「並べて表示」ボタンをクリックすると…

f:id:digitalnagasaki:20160606111643j:plain

下図のように、選択した箇所が拡大・並置されます。これもやはり、Miradorをかなりトリッキーな方法で使っている例です。

f:id:digitalnagasaki:20160606111747j:plain

９．タグ内の特定テクストをクリックすることによる検索

　さて、画像の頁を表示させると、そこでタグがホップアップします。このタグに書かれている個々の内容は、クリックするとその要素での検索ができます。たとえば、下記のように、「坐法：半跏趺坐・右足上」をクリックすると…

f:id:digitalnagasaki:20160606112345j:plain

下図のように、その坐法のタグをつけられた図像が検索結果としてリストされます。

f:id:digitalnagasaki:20160606112437j:plain

この機能は、色々応用が利くと思いますので、ぜひお試ししてみてください。

１０．漢字を入力せずにローマ字での読みや英単語を入力して検索

最後に、これもSAT大蔵経データベースの機能をほぼそのまま持ってきたものですが、東京大学のチャールズ・ミュラー先生によるDigital Dictionary of Buddhism の公開情報を使って、「ローマ字での読みや英単語を入力して仏教用語を探し出す」ことを支援する機能を提供しています。たとえば、下図のように「monju」と入力して、「検索」ボタンの左隣の「EN」というボタンをクリックすると、下記のようにDDBの検索結果が表示されます。ここで、気になる言葉をクリックすると、その単語が検索窓に入力されます。

f:id:digitalnagasaki:20160606113031j:plain

この機能は、日本語や漢字をどうしても思いつかない場合にも役立つことがありますので、ぜひお試しください。

終わりに

ということで、いかがでしょうか。ポイントは、とにかくあちこちで公開されている画像を一元的に扱えるようになるということだ、と実感していただけたらと願っております。検索機能に関しては、まだIIIFの規格の方に検討の余地があるかもしれないということで今回はSearch APIは採用しておりません。これは今後の大きな課題の一つだと思っております。

　何度か書いてきましたが、この仕組みが一般化してしまうと、この仕組みに乗ってない画像はなかなか見てもらえなくなるという事態に陥ることが割と容易に想定されます。IIIFの仕組みとしての導入はかなり低コストです。問題になるのは、むしろ所蔵者・権利者のご意向ということになりますので、そこはやや難しいところではありますが、「デジタルアーカイブ」的なものの管理や発注に関わる皆様におかれましては、そういった方々へのご説明や説得等も含め、IIIFへのご対応にそろそろ取りかかっていただくのがよい時期ではなかろうかと思います。

　このブログ記事が、みなさまのお役に立ちますと幸いです。今後とも、よろしくお願いいたします。

2016-06-02

「デジタルアーカイブ」における画像共有のための国際規格IIIFについてのご紹介（続）

IIIF

f:id:digitalnagasaki:20160602173905p:plain 　IIIF　International Image Interoperability Framework 国際的な画像相互運用の枠組み

断片的な紹介ばかりで恐縮だが、IIIFのメリットが見えにくい、先の見通しが見えにくい、という話をいただくことが多いので、もう少しわかりやすくなるようにまとめ直してみたい。

IIIFは、その名の通り、Web上での画像のやりとりの仕方を効率化するための手法であり、それ以上でもそれ以下でもない。これがそのままデジタルアーカイブの基幹部分として使えるという風に考えてはいけない。基幹的なデジタルアーカイブを前提として、その画像やその他のデータをやりとりしやすくするための仕組みなのである。その観点からみれば、これまでにはなかった部分を埋める規格であると言える。

では、画像のやりとりの仕方がどのように効率化されるのか。大きなポイントは２点だが、その結果、様々な面での効率化が達成され得る。簡単に図式化してみると、たとえば、以下のような感じである。

f:id:digitalnagasaki:20160602162839j:plain

利用者側の問題：

一つ一つのサイトの使い方を覚えないと…
一つ一つアクセス・検索しないと…
ダウンロードできないと情報集約も大変
使い勝手改善の要求になかなか対応してもらえない…
利用条件がよくわからないことが…
便利なはずのデジタルで何故…？？

提供者側の問題：

システム開発・仕様決定にかかる費用と手間が…
他機関と連携しようとするとさらに手間が…
利用者からの色々な要望に応えきれない…
すぐにダウンロードされるのでどう使われているかほとんどわからない…
公開してもなかなか個々の利用者に発見してもらえない…
デジタルなのにメリットを全然活かせてない…

f:id:digitalnagasaki:20160602162841j:plain

利用者側にとっての解決事項：

必要なデジタルアーカイブとはビューワが裏側でやりとりしてくれるので：

利用者の学習コスト・探索の手間が大幅に低減。

ビューワの改善要求は自分が利用するビューワの開発者に要求するだけでよくなる
好み・用途に応じて適宜ビューワを変える事が可能。
ライセンス表示も必須化されるので再利用可能性がすぐにわかる

提供者側にとっての解決事項：

公開に関するシステム開発は共同開発してフリーソフトで。仕組みも皆で協力して決めて共通化。
皆でやりとりしやすい仕組みにして容易にやりとり。
利用者からの要望も皆で対応。皆で協力して開発者を支援。
ビューワに把握してもらえば利用者まで届く道ができる。
サーバに置いたまま、タグ付けも含めて外部のシステムから利用できるので利用記録から利用状況を把握しやすくなる

f:id:digitalnagasaki:20160602162845j:plain

これまでの「デジタルアーカイブ」では難しかったことも

外部からの自由なタグ付けの仕組みによる自由で多様な文脈の付与
様々なタイプの横断検索（多様な文脈付与の一環とも言える）
より高度な教育教材の可能性
キュレーター養成用教育システム
その他、自由で多様な「ポータル」構築が可能に。

⇒多様な産業の発展の可能性も

f:id:digitalnagasaki:20160602162835j:plain

さて、ここまで見てきたように、色々なメリットがあるのだが、一つ、見過ごしてはならない重要な注意点がある。それは、このIIIF自体はデジタルアーカイブの基幹技術ではない、ということだ。あくまでも、インターフェイスとして利便性の高い公開の仕組みであるというに過ぎず、アーカイブとしての保存に関しては、これにそのまま依存すると危険なことになる可能性があるので、保存に関しては別途きちんとしたメタデータを付与した形でデータベース等に保存し、それを公開するにあたって、データベース等からIIIF形式でデータを公開するような形にするのが妥当であると思われる。いわば、「インターフェイスに関する様々なニーズへの対応コストを下げつつさらに幅広い活用可能性を実現する」という目標に特化されたものと考えていただくとよいと思う。IIIFとしても、公開している規格は「Application Programming Interface」と称しているように、あくまでも「インターフェイス」なのである。

また、上記の説明を踏まえて、下記、少し実際の画面のキャプチャを見てみよう。まず、先日もブログで書いたように、色々なビューワを選択できる。以下の画像は、Mirador、Universal Viewer、diva-js、Leaflet-IIIFをそれぞれ試してみた例である。MiradorとUniversal Viewerは外部からのManifest URIドラッグ＆ドロップ機能があるので容易に試してみることができるが、他の二つはその機能をまだ搭載していないので、上記のリンク先にてそれぞれ用意してみている。

f:id:digitalnagasaki:20160602162953j:plain

特に、IIIF対応ビューワで今のところ最も進んでいるとみられるフリーソフトMiradorは、

・複数画像を拡大縮小可能な状態で同時に並べられる

・外部画像をユーザが簡単に（ドラッグ＆ドロップでも）表示できる

・とってきた画像にユーザがタグをつけられる

という機能を備えている。

たとえば、下記の例は、SAT大蔵経画像DBを見ている最中に、バチカン図書館のデジタル化資料のmanifest URIを読み込ませて並べて見た例である。

f:id:digitalnagasaki:20160602163024j:plain

バチカン図書館は、ご存じの通り、NTTデータがデジタル化に取り組んでいるが、それゆえ、欧州の標準的なデジタルアーカイブの動向に対応せざるを得ず、IIIFやTEIなど、日本ではまだなじみの薄い技術にも取り組んでいるようである。これは大変ありがたいことで、NTTデータの英断には深く感謝している。

　たとえば、バチカン図書館のサイトで左上のアイコンをクリックすると、下記のように書誌詳細情報が表示される。この中に「IIIF manifest URI」というのが表示される（赤枠をつけたところ）ので、これをコピーすれば、他のIIIF対応ビューワで表示できるようになる、というわけである。（manifest URIについては先日のブログでも紹介した通り）

f:id:digitalnagasaki:20160602163433j:plain

こういった例ばかりだと、絵に興味を持っている人にしか関係がなさそうな気がしてくるが、ところが、IIIFはむしろ、写本をどうにかしたいという人達が力を入れていることから、そういった方面への活用も色々追究されているようである。

　たとえば、下記の例は、Miradorの画面分割機能を使って３種類の「妙法蓮華經（法華経）」を並べたものだ。フランス国立図書館で公開されている敦煌写本がすでにIIIF対応になっているので、その画像と、東大総合図書館等から公開されている１６世紀末の木版本と、大正末期～昭和初期に活版印刷で刊行された大正新脩大藏經の画像を、私のコンピュータに入っているMirador中で並べてみているところである。そしてさらに、フランス国立図書館の画像にタグもつけてみている。

f:id:digitalnagasaki:20160528222334j:plain

Miradorの画面はもっとたくさん分割することもできるので、たとえば、６分割してみて法華経関係の図像も入れてみたのが下記のものである。まだ見たりタグをつけたりするだけなのだが、ここまでできることがわかれば、あとは色々なことができるということは大体想像がつくだろう。

f:id:digitalnagasaki:20160602163115j:plain

IIIFはどれくらい広まっているのか？どれくらい普及しそうか？

さて、ここまで、とりあえずIIIFが普及したらよさそうだという話を書いてきたが、では実際どれくらい普及しているのか。そして、今後どれくらい普及しそうなのか、ということだが、まず、フランス国立図書館のgallicaは基本的に全面対応しているそうだ。確かに、gallicaから公開されている敦煌写本のURLで確認してみると、いずれもIIIF manifestとしても公開されていることが確認できた。

（ gallicaのデジタル化資料のURLの /ark: の前に/iiifを入れて、URLの最後に /manifest.json をつけるとその資料のIIIF manifestを取得できるのだそうだ。）

これをアイコン化してドラッグ＆ドロップできるようにしたのが下記のものである。

ちょっと脱線＆復習すると、これらを、たとえばどこかにセットアップした（自分のパソコン上でもOK）MiradorやUniversal Viewerにドラッグ＆ドロップすれば敦煌写本が見られるし、同様にして対応したものが出てくればみられるようになる。また、これは開いた時点では最初の頁が開くだけだが、開き方を工夫すれば特定頁の特定箇所をいきなり拡大表示させることもできる。たとえば下記のような感じで。

f:id:digitalnagasaki:20160519031149p:plain

さて、脱線から戻ってくると、フランス国立図書館ではそういう感じなのだが、他に大きなところでは、DPLAが550万点、ハーバード大学が図書館とミュージアムをあわせて32万5千点、ウェールズ国立図書館が20万点、だそうです。それから、英国図書館が近々全面移行、という話を聞いております。こちらの参加機関リストを見る限りでも、有力研究図書館、国立図書館だけでなく、Europeana、Internet Archive、World Digital Libraryなど、統合系の「デジタルアーカイブ」も参加表明して、徐々に対応していっているようです。最近、あれよあれよという間にこのリストがのびていっていて、ちょっと驚いているところです。

　しかし、一方、もう一つ最近驚いたのが、その参加機関リストに全く掲載されていないブリティッシュコロンビア大学に先週行ってみた時のこと、当地のデジタルコレクションを見せていただいて色々解説をしていただきながらWeb頁などを見ていたら、なんと、IIIF manifestがすでに用意されていたのでした。下記のように、「Embed」という項目に掲載されていたのですが、

f:id:digitalnagasaki:20160602172736j:plain

そうすると、たとえば、下記の画像のmanifest URIをコピーして…

f:id:digitalnagasaki:20160602181118j:plain

こういう感じ↓で、自分のビューワに表示させて拡大縮小したりタグをつけたりできるわけです。

f:id:digitalnagasaki:20160602182218j:plain

（この画像は、Mirador2.1のタグ付け機能を利用している例です）

このように、IIIF参加機関として表明していないようなところでもIIIFをばっちり採用しているという状況ですと、もう容易には把握できないレベルで世界中に広まってしまっているのかもしれない、ということが想像されるので、それが先週の驚きだったのです。

　さて、ここでまた色々考えたのですが、そもそもIIIFというのは既存の技術を組み合わせて使いやすくしているに過ぎなくて、特に公開する側の負担はかなり小さいのです。なにしろ、フリーでも公開されている画像配信用サーバをインストールして（インストール方法はこのブログで解説できる程度のものです）、すでに用意されているメタデータと画像情報をもとにしたJSON-LD形式のファイルを作るだけなのです。

　ブリティッシュコロンビア大学の例など、おそらく、エンジニアがちょこっとスクリプトを書いたら対応できてしまった、というくらいのことだろうと思うのです。私も、国文研データセットのIIIF対応は、タグの表示以外の部分では、割と簡単にできてしまいました。SAT大正蔵図像DBの方は、画像の容量がかなり大きいので色々対策をしたりタグを表示させてその内容からクリックで検索できるようにしたりとあれこれ工夫したので結構大変でしたが、標準的な対応だけであればかなり簡単です。組織内にデータ処理がある程度できるエンジニアを抱えていれば、技術的にはすぐに対応できてしまうと思います。

　日本の機関ではまだあまりIIIFへの対応が広がっておらず、その理由としてはやはり画像公開に関わるライセンス的な問題をどうクリアするかということがあるのだろうと思っていましたが、もう一つの大きな理由として、そういうことにちょこっと対応できるような組織体制になっていないということがあるのかもしれないと思ってきています。

　IIIFの興味深いところは、いわゆる標準規格のように厳密に決めた仕様を皆で使うというよりはむしろ、コミュニティを形成して、そのなかで話し合いながら、後方互換性を保ちつつ改良を進めているという点です。これは、人文系テクスト資料のデジタル化のデファクト標準であるText Encoding Initiative (TEI) でも同様の体制をとっているのですが、それゆえ、日本の規格好きな人にはあまり好かれない傾向があって、日本がこういった動きから遅れをとりやすい理由の一つなのかもしれないとも最近思っています。また、ここまで見てきた限りでは、IIIFに関しては、研究図書館や大学の研究支援組織のようなところにいるエンジニアが開発や仕様策定やシステム開発に関わっている例が多いような感じがしております。この点、日本の同種の組織では、技術的なことは業者に発注してかっちりしたものを作ってもらうという流れが強いような感じがしていて、それも、今回、あまり気がつかないうちにいつの間にかIIIFがかなり広まっていた…という理由の一つだろうかと思っております。つまり、日本にカウンターパートがほとんど存在しない領域で起きている事態ゆえに対応が遅れているということなのかもしれない、ということです。

　いずれにしても、この技術の広がりと適用可能性を考えると、今後、IIIF対応画像を対象とした分野特化型のポータルやツールなどが色々できていくだろうと思っているのですが、とりあえず、なんとか日本からも対応していかないと、近々、「IIIF対応の画像でないなら扱いません」という話になってしまいかねないと危惧しています。（というか、オフレコということで、某所でそういう話を最近聞いたので、それも危機感のもとになっています）

　そこで、敢えて、この種の話への日本のカウンターパートというのを考えて見ると、研究者の一部かIT企業、それも、文化資料に関心を持って取り組んでいる方々、が頭に浮かびます。ですので、とりあえず、知り合いの研究者や関連IT企業に声をかけてみてまわっているところです。

　また、持続可能性という点なのですが、我々は特に、Webが登場してからというのも、大体5年くらい、長くても10年くらいで技術を更新しながらやってきています。今はHTMLは5.0ですし、Web2.0的な技術はすっかり広く使われるようになりました。IIIFは、コミュニティでの取組みという側面が強く、現在も少しずつ変更されていってますので、がっちりとした規格ではないですし、今後もそういう風にはならず、むしろフレキシブルに多様なコンテンツを取り込み続けていくのではないかと思うのですが、むしろ、技術が変わっても対応できるような体制を作る、そして、技術が変わっても更新しないでよい部分（データの内容など技術に依存しない部分）は更新せずに済むように、データ・プログラム・アルゴリズム・インターフェイスといったものをきちんと切り分けておく、といったことが重要になっていくのではないかと思います。特に文化資料・学術資料の場合、今のところは、プログラムやアルゴリズムに比べてデータ作成に時間と手間が大きくかかるという状況ですので、特に、良き「デジタルアーカイブ（ズ）」の構築を目指すなら、データの持続性をなるべく保ちつつ、プログラムやアルゴリズム、あるいは、特にインターフェイスについては、なるべく使いやすいものを提供できるように、技術の進展にあわせて入れ替えていけるようにしていくのが肝要ではないかと思っているところです。

　とはいえ、そういう体制を作るのは難しく、それでもいつか、えいやっとIIIFに踏み込まなければならない（＝IIIF対応としてシステム発注する）時が来る場合もあると思いますが、その意味では、そろそろ大丈夫なのではないかと思います。

　最後、途中からですます調になってしまって若干読みにくいかもしれませんが、ご容赦ください。それから、まだあまりピンとこない関係者の方がおられましたら、また別な説明の仕方を考えて見ますのでお知らせくださいませ。

2016-05-19

仏教関連の図像データベースがIIIF対応で公開されました。

IIIF IIIF応用

SAT大蔵経テキストデータベース研究会（代表：下田正弘東京大学教授）より、大正新脩大藏經図像データベース:SAT大正蔵図像DB（ベータ版）がIIIF（International Image Interoperability Framework）対応かつタグ検索機能付きで公開されました。

今回データベースとして公開されたのは、大正新脩大藏經全100巻のうち12巻を占める、図像とその解説を主とした部分で、「図像部」「図像編」などと呼ばれているものです。正式なご紹介については、上記URLのサイトにアクセスすれば表示されると思いますのでそちらをご覧ください。こちらのブログでは、使い方と技術面の話を少し書いてみます。

高画質画像とページ画像内の各図像へのタグ付与をテーマとして進めてきたプロジェクトでしたが、運の良いことに、このブログで何度か採り上げてきたIIIFが、ようやくきちんと使えるようになり、こういった利用に比較的適しているMiradorというビューワも出てきましたので、これに全面的に対応しました。

裏話はともかく、まずは使い方の解説です。

はじめの画面

最初のページにアクセスすると、ご紹介文のウインドウが表示されます。このウインドウを下までスクロールして閉じると、最大サイズ（6000万画素画像を25枚つなげたものです）の曼荼羅をご覧いただけるようになっています。まずは拡大縮小してみて、スムーズにできるかどうか試してみてください。スムーズにできなければ、サーバが混雑しすぎているか、手元のネットワーク回線がちょっと無理だと言っているかのどちらかです。

f:id:digitalnagasaki:20160519030706p:plain

普通にページめくりで閲覧

普通にページをめくって見ていく場合は、ページの上部に「第1巻」「第2巻」というリンクが用意してあるのでそちらをクリックしてください。あるいは、ビューワMiradorの左上のボタンをクリックして「新しいオブジェクト」を選んでいただくと、このシステムに登録されている画像群（マニフェスト）のリストが表示されます。いずれかをクリックするとそのマニフェストが表示されるようになっています。マニフェストを表示すると下図のようになります。下部にずらっとならぶサムネイルにマウスカーソルをあわせると、そのページが含まれる文献のタイトルがポップアップ表示されますので、必要に応じて確認してください。

f:id:digitalnagasaki:20160519030448p:plain

画像につけられたタグを検索

SAT大正蔵図像DBでは、タグを検索できます。また、有名な名称はローマ字表記等でも検索できます。たとえば「bishamon」の検索結果は以下のようになります。タグ付けの対象となった画像が切り出されて表示されます。（IIIF Image APIを使っています）そして、ページ番号のところをクリックすれば、その画像が含まれるページを開けるようになっています。

f:id:digitalnagasaki:20160519030759p:plain

大きなサイズでヒットした画像を確認

検索結果画面の画像をクリックすると、下記のように拡大表示されます。単に大きいサイズで確認しただけの場合はこれが便利です。カーソルの左右キーや画面左下の矢印キー等で、この検索結果画面の画像を順次見ていくことができます。

f:id:digitalnagasaki:20160519031114p:plain

複数の画像をそれぞれ拡大縮小できるように並べて表示

検索結果画面のチェックボックスをクリックすると、小さなカートが表示されて、そこに小さなサムネイル画像が表示されます。これは、チェックボックスをクリックするたびに小さなサムネイル画像が追記されていく仕組みとなっています。ここから削除したい場合は画像をクリックすれば削除されます。ひととおり、並べて閲覧したい画像を選んだら「並べて表示」ボタンをクリックすると下記のように並べて表示されます。それぞれのウインドウで拡大縮小されますので、気になる画像の周囲の状況を確認するときなどにも便利だと思います。

f:id:digitalnagasaki:20160519031149p:plain

タグで検索（その１）

画像上のタグ付けされた箇所にカーソルをあわせると、タグの内容が下図のように表示されます。ここのタグではきちんとつけたものではないので情報が少ないですが、「邪鬼：複数」をクリックすることで、「複数の邪鬼を台座にしている図」で再び検索をすることができます。

f:id:digitalnagasaki:20160519031157p:plain

タグで検索（その２）

しかし、ヒット数が少ないとちょっと残念なので、別の図像のタグをみてみます。そうすると「山型宝冠」というタグがついていますので、これをクリックしてみます。

f:id:digitalnagasaki:20160519031202p:plain

タグ検索の結果

下記のように、山型宝冠を頭につけている図像が検索結果表示されます。

f:id:digitalnagasaki:20160519031208p:plain

画像を並べて表示する準備（再）

上記にて説明したように、複数の画像を並べて表示してみましょう。まずは下記のように、準備からです。各検索結果図像の下についているチェックボックスをクリックするとカートに小さなサムネイル画像が追加されていきます。

f:id:digitalnagasaki:20160519031207p:plain

画像を並べて表示

再び、「並べて表示」ボタンをクリックすると下記のようになります。ただし、サーバ負荷が高い状態のときなどは若干反応が鈍いことがありますので、ご注意ください。

f:id:digitalnagasaki:20160519032437p:plain

当該ページが含まれる書籍のタイトルの確認

表示している画像がどの書籍に含まれているのかを確認するためには、まず、画面の下記の部分に注目してください。「…」となっている箇所をクリックすると…

f:id:digitalnagasaki:20160519032441p:plain

下記のようになりますので、既出ですが、マウスカーソルをサムネイル画像にあわせると書籍タイトルがポップアップするという風になっています。

f:id:digitalnagasaki:20160519032444p:plain

終わりに

さて、ここまで、いかがでしょうか。日本美術史のみなさまが大変頑張ってくださったおかげで、試験的な公開にしてはなかなか良い感じになっていると思います。

　システム構築は、IIIFに準拠したことで、既存のビューワやサーバソフトをはじめ、様々な面でメリットを享受しています。

　全体として、まだ改善の余地が大きいので、みなさま、ご意見・ご感想・ご協力などいただけますと幸いです。

今後とも、よろしくお願いいたします。

2016-05-16

今まさに広まりつつあるデジタルアーカイブの国際規格IIIFの導入の仕方

IIIF IIIF環境準備

前回の記事では、IIIFについて、主にユーザ側の視点から、良くなりそうなことを簡単にご説明しました。今回は、IIIFの導入の仕方についてちょっとご紹介したいと思います。

一昨日開催された人文科学とコンピュータ研究会で、10分だけ、IIIFをご紹介する機会をいただいたので、研究者としてこれと付き合うとしたらどういうポイントがあり得るか、という視点からちょっとご紹介をしました。その中で使ったスライドの図を、まずは以下に掲載します。

f:id:digitalnagasaki:20160516015416j:plain

要するに、

１．対応画像サーバソフトをインストール・設定する

２．メタデータ等をPresentation APIに従ってJSON-LDに変換する

という２点ができればOKです。では一つずつ下記で検討していきましょう。

１．対応画像サーバソフトをインストール・設定する

　まずは、画像にアクセスできるサーバマシン上に、対応画像サーバソフトをインストールして設定します。ただし、これに際しては、場合によっては、画像形式をTiled TIFF画像形式に変換しなければならないことがあります。特に、画像がかなり大きかったり、アクセス数がかなり多く見込まれる場合などです。そこで、ここでは２つのやり方を見ていきましょう。

1-1. Loris IIIF Imageサーバ：画像が大きくなくてアクセス数もそれほど多くない場合

　画像サイズが1MB～数MBで、アクセス数もそれほど多くなければ、サーバマシンのスペックにもよりますが、Loris IIIF Imageサーバという、Python製のサーバで大丈夫ではないかと思います。また、実験的に導入してみようという場合も、とりあえずはこれで十分かと思います。

　インストールはPythonにある程度通じていればなんということはないと思うのですが、ちょっとややこしいのが画像の置き場のディレクトリ構成です。設定ファイル loris2.conf の中で

src_img_root = '/opt/imagefiles/'

とした場合、

/opt/imagefiles/NIJL0008/NA4-0644/NA4-0644-00007.jpg

という画像が、下記のURLでアクセスできることになります。

http://www2.dhii.jp/loris/NIJL0008/NA4-0644/NA4-0644-00007.jpg/full/full/0/default.jpg

（初めてインストールした時はこの関係がよくわからなくて、インストールに成功したかどうかすらよくわからず、ちょっと時間をつぶしてしまいました）

1-2. IIP Image サーバ：画像が大きかったりアクセスが多そうな場合

　一方、ファイルサイズが大きい場合（目安は10MB～？）、あるいは、アクセスがかなり多く見込まれる場合、IIP Image Serverを使っていただいた方が良いかもしれません。こちらはインストールがちょっとややこしいので、公式サイトのインストールガイドに加えて、私が書いたインストールガイドもご覧ください。特にCentOS環境なら、私のインストールガイドだけでもインストールできると思います。Debian系の場合も、注意点（バイナリをインストールしてもIIIF対応バージョンがインストールされない、等）は共通するところがあるようですので、一応目を通しておいていただくとよいと思います。

　こちらの場合は、上記のインストールガイドにも書いてあるように、タイル形式画像を用意する必要があり、お金がなければTiled Tiffしか選択肢がないので、結果的に、ちょっとストレージをたくさん必要とすることになります。この点、ちょっと注意が必要です。

さて、画像サーバのインストール・設定が終わったら、次はPresentation APIへの対応、つまり、JSON-LDファイルの作成です。

２．メタデータ等をPresentation APIに従ってJSON-LDに変換する

　これは特に難しいことはありません。既存のメタデータと、画像の入っているディレクトリがあれば、あとは、Presentation APIに従って、JSON-LDファイルを作っていくだけです。ただし、ここで、上記のIIIF対応画像サーバによって使えるようになる Image APIに準拠した画像のURLが必要になりますので、手順としては、画像サーバインストールが先に必須になります。

　ファイルの作り方については、たとえば私の場合、PHPで、同内容の連想配列を作ってから

json_encode(連想配列, JSON_UNESCAPED_UNICODE | JSON_UNESCAPED_SLASHES | JSON_PRETTY_PRINT)

などとしています。「とりあえずIIIF対応ビューワに読み込ませて動作する」というレベルのものについてはこちらを参考にしてみてください。このPresentation API準拠のJSON-LDファイルが IIIF Manifest等と呼ばれるものになります。ここでは「マニフェストファイル」と呼んでおきましょう。

　基本的な考え方としては「キャンバス」を集めたものが「マニフェスト」です。このマニフェストが一つの本とか作品等にあたります。

　マニフェストから上位の概念を見ていくと、マニフェストを集めたものが「コレクション」で、コレクションはさらに集めて上位の「コレクション」とすることもできます。コレクションの例はたとえばこんな感じです。

　一方、マニフェストから下位の概念を見ていくと、「キャンバス」が、画像やアノテーション等を載せるための仮想的な概念（コンテナ）として用意されています。この「キャンバス」の順番を決める「シーケンス」があり、さらに、キャンバスを「章」のような形で少しずつまとめていく「ストラクチャー」も用意されています。ただし「ストラクチャー」については、きちんと実装されているビューワはハーバード大学版Miradorくらいしかみたことがありません。先週この開発者にお会いしたので聞いてみたところ、近々Miradorの正式版にもこの機能が取り込まれるとのことでした。

　ちなみに、私は画像上にアノテーションを付ける目的があってIIIFとMiradorにちょっと入れ込んでおりまして、ごく近いうちに、その機能を活用した画像データベースを公開する予定です。アノテーションの付け方は、前回の記事にも書きましたが、たとえばこういうマニフェストファイルを作って（このファイル中の http://www2.dhii.jp/loris/NIJL0008/NA4-0644/p5 の「otherContent」に注目してください）、これに対してアノテーションのファイルはこんな感じになります。IIIF対応画像ビューワMiradorでの実際の利用例はこちらです。Media Fragments URIがここできちんと活用されるようになっていることに感涙することしきりです。

f:id:digitalnagasaki:20160428184604j:plain

＜実際にマニフェストファイルをIIIF対応ビューワに読み込んで確認してみましょう＞

さて、JSON-LDによるマニフェストファイルができたら、あとはこれをビューワに組み込むだけなのですが、代表的なビューワは、いずれもマニフェストファイルのURLを入力すればそのマニフェストに含まれる画像やメタデータを表示してくれるようになっており、さらにMiradorに至っては、上記のようなアノテーションまでも表示してくれます。

　マニュフェストファイルをビューワに読み込ませる方法ですが、Universal Viewerはリンク先をみていただけば一目瞭然で説明の必要はないと思います。あるいは、公式サイトでは、いきなりマニフェストファイルのURLの入力を要求されるようになっています。ただしこちらは、アノテーションの表示がまだできないようです。Universal Viewerはマルチメディアコンテンツを色々表示できるように拡張に取り組んでいるそうです。

　Miradorの方は微妙にわかりにくく説明を必要とすると思うので、一応、下記に説明をしておきます。たとえば、こちらの例の場合では、画面の左上の方に用意されいているアイコンをクリックすると…

f:id:digitalnagasaki:20160516030230p:plain

下記のようなメニューが現れますので、「新しいオブジェクト」を選択します。

f:id:digitalnagasaki:20160516030231p:plain

そうすると、右上に「URLで新規オブジェクト追加」という項目が表示されて入力欄が出ますので、ここにマニフェストファイルのURLを入力して「Load」をクリックします。そうすると、そのマニフェストファイルのコンテンツが表示されるようになっています。

f:id:digitalnagasaki:20160516030234p:plain

ここまでできたら、IIIF対応はできた、と言っても大丈夫ではないかと思います。

さて、せっかくIIIF対応マニフェストファイルを用意できたのですから、自前でビューワを用意してそこに読み込ませたい、という気持ちが出てくるのは当然かと思います…が、それはまた次回に、ということで。

2016-04-28

今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介

IIIF

※IIIFの情報を求めてこちらに来られた方は、「IIIF日本語情報私的まとめ」もご覧ください

現在、デジタルアーカイブにおいて画像を公開し共有するための国際的な枠組みが作られ、採用が広まりつつあります。International Image Interoperability Framework、略してIIIF（トリプルアイエフ）というもので、英国図書館、フランス国立図書館、オックスフォード大学ボドリアン図書館、スタンフォード大学、プリンストン大学、イェール大学など、錚々たる機関が始めた規格で、国立国会図書館のカレントアウェアネスポータルでも何度か簡単に紹介されているようです。

　これまで、デジタルアーカイブに関する大きな難点の一つであった、「各地のデジタルアーカイブで個別に公開されて、いちいちそれぞれのサイトの使い方を覚えなければならず、使い勝手も善し悪しが大きく異なる」という状況が、IIIFの登場と普及によって、ようやく、そして一気に解決しようとしています。

　つまり、画像データやそれに対する注釈情報等のコンピュータ間でのやりとりの仕方を各機関の間で一元化することによって、利用者が色々な使い方を自由に選べるようにする、という状況がもたらされようとしているのです。

　このブログでは、何度か、その仕組みの裏側についてご紹介してきましたが、今回は、普通の利用者にとってIIIFがどういう風に作用することになるのか、ということに焦点をあててご紹介していきたいと思います。（一応、技術的な事柄が中心になりますが、技術的な事柄がよくわからないという人も、いきなりこのページを閉じないで、とりあえず、下記の紹介画像だけでも見ていっていただいて、雰囲気だけでも感じていただけたらと思います。）

ここまで何度か、IIIF Image APIについて採り上げつつ、IIPImage Serverのインストールについてのご紹介などをしてきました。（詳しくは過去記事をご参照ください）IIIF対応画像サーバのインストールは必須なので押さえておかねばならないのですが、ここでは、これを踏まえた上でのIIIF Presentation APIのご紹介、ということになります。

基本的には、

・世界中のどこのデジタルアーカイブの画像ファイルでも、その情報を自分のビューワに読み込ませるとそれを表示してくれる。

ということに尽きます。しかし、これは決して当たり前のことではなくて、私も長年夢見てきたことに向けた大変大きな一歩が踏み出されたというところがすごいところなのです。もう少し言い方を変えてみると、

・IIIF Presentation APIに沿った形式のJSONファイルで画像ファイルの情報をサーバに置いておくとどこのどのビューワでも自由に表示できるし画像上に注釈を付けたりすることもできる。

という風になります。

さらにこれを利用者目線に寄って見みてみると、

IIIF 準拠で画像公開されていれば：

いくつかの選択肢の中から好きなビューワを選んで使える
どこのサーバで公開されていても一つのビューワの中で一元的に扱える

というような感じになります。

さて、ビューワですが、今回は MiradorとUniversal Viewerを試してみました。いずれもフリーソフトですが、かたやスタンフォード大学やハーバード大学、UCLA、など、かたや英国図書館やウェルカムライブラリなど、いずれも大手の関係機関が関わっているもののようです。他にもいくつかよさそうなフリーソフトがありますが、とりあえず今回はこの二つに圧倒されてみましょう。

IIIF Presentation APIでは、何度も書いていますが、一定の書式に従ってJSONファイルを作成することが前提です。これを読み込むことで、サーバがどこにあっても、手元のビューワに画像を読み出せるようになっています。JSONファイルは、たとえば、下記のような感じです。

http://oculus-dev.harvardx.harvard.edu/manifests/via:olvwork576793

http://dms-data.stanford.edu/data/manifests/BnF/jr903ng8662/manifest.json

http://www2.dhii.jp/nijl/NIJL0003/049-0197/manifest.json

これだけ見ると難しそうでわけがわからん、という人もおられると思いますが、基本的には機械的に生成できますので、いちいち手で書く必要はありません。今回、国文研データセットに関してはちょっとプログラムを作って350ファイルを自動生成しました（まだ記述が完全ではありませんが、書式は正しく、動作もきちんとします）。なお、エラーチェックに関しては、簡単なバリデータがありますので、これで確認しながら進めるとよいかと思われます。（バリデートされたからといって必ず動作するとは限らないので要注意ですが）

とりあえず、これをいつもの国文研オープンデータセット簡易Web閲覧のページから個々にダウンロードできるようにしておきました。「IIIF manifest」というリンクをクリックするとJSONファイルが開きますが、これを開いても仕方がないので、URLをコピーして、IIIF対応ビューワに読み込ませるなどとして、適宜ご利用ください。（IIIF manifestファイルをここで入手できる、ということを覚えておいてください。）

f:id:digitalnagasaki:20160428174559j:plain

それから、このページにはというアイコンが登場していますが、これはIIIF対応ビューワにドラッグ＆ドロップするとその画像セットを閲覧できるようになる、というアイコンです。そして、このアイコンの隣に「UV」というリンクがありますので（上記画像には出ていませんので当該ウェブページにて直接ご確認ください）それをクリックするといきなりUniversal Viewerでファイルを開くことができます。たとえば以下のような感じです。

f:id:digitalnagasaki:20160428171410j:plain

このビューワは、今の段階ではまだ普通のビューワです。とりあえずあちこちクリックしたりしてみて機能を確認してみていただけますとよいかと思います。

特にこのビューワで面白いのは、「今見ている領域をそのままURLにして共有できる機能」です。

f:id:digitalnagasaki:20160428171505j:plain

画像閲覧中に左下のアイコンをクリックすると上記のような表示になりますので、サイズを選んだりしつつ、表示されているURLのみ、あるいはHTMLタグごとコピーして適宜利用して、表示中の領域を再現できるようになっています。この機能は、我らがe国宝でかなり以前から提供されてきているので既視感がありますが、このようにして簡単にどこでも実装できるようになると、これはこれで今後の展開が楽しみなところです。

それから、先ほどご紹介したIIIF ManifestファイルのURLを読み込ませて表示させる、という機能をUniversal viewerは持っています。画像表示画面の下の方にURLを書き込む場所がありますので、そこにIIIF ManifestファイルのURLをコピペするなどして「Set」をクリックすればOKです。ちょっと時間がかかることや、公開元によってはサムネイル画像がうまく表示されないことなどがあるようですが、国文研データセットのIIIF Manifestファイルでは、確認した限りでは、普通に表示されるようです。

f:id:digitalnagasaki:20160428171531j:plain

ここまで見ていただけば、「各地で公開されている画像を一元的に扱える」というのは大体ご理解いただけたかと思いますが、これだけではちょっとインパクトに欠けると思います。そこで次にご紹介したいのがMiradorです。

まず、下記の２件の表示を見てください。これです。これが、IIIF対応している画像であればどれでもできるのです。しかも、フリーソフトで。

f:id:digitalnagasaki:20160428153857j:plain

f:id:digitalnagasaki:20160428170243j:plain

さて、では、Miradorについて見ていきましょう。まずはデフォルトのページをご覧ください。ここで大きな十字が表示されると思います。この十字をクリックしてください。そうしますと、下記のように、登録されている各資料がずらっと表示されるはずです。

f:id:digitalnagasaki:20160428153551j:plain

ここでいずれかの資料や画像をクリックすると、ビューワに表示されます。

それから、ここには表示されていないけど使いたい画像があってIIIF ManifestファイルのURLを知っているという場合は右上の空欄にそのURLを書き込んで「Load」をクリックするとこの一覧にその資料が追加されます。

ビューワに表示されると下図のようになりますが、これは普通の拡大縮小可能なビューワですので（内部的にはOpenSeadragonのようです）、特に変わったところはありません。

f:id:digitalnagasaki:20160428153645j:plain

このビューワ画面の右上に注目していただきますと「レイアウト変更」というリンクがあります。これをクリックしますと下記のような画面になって、１つのページ内に表示できる画像数を設定できるようになります。

f:id:digitalnagasaki:20160428153753j:plain

とりあえず、１×２を選択すると下記のようになります。これで、先ほどと同様に「アイテム追加」をしていただくと、他の資料を選択できるようになりますので、適当に選択してみてください。そうすると、２つの図を並べて表示できるようになります。

f:id:digitalnagasaki:20160428153811j:plain

最初から複数の画像を並べて表示させることもできます。寛政武鑑だけを最初から並べて表示できるようにしてみたのがこちらのURLです。下記のようになるはずです。

f:id:digitalnagasaki:20160428170823j:plain

さらに追加していくと、下図のように６つの寛政武鑑を並べたりすることもできますのでお試ししてみてください。

f:id:digitalnagasaki:20160428170243j:plain

ちなみに、ちょっと動作が遅い…と思われた方もいらっしゃるでしょう。それは、国文研データセットのIIIF画像配信サーバソフトがあまり速くないものであることと、そのハードウェアももう5歳になってしまっているためかと思います。機会があれば、もう少し速いものに置き換えたいと思っております。

それから、この仕組みでは、Open Annotationを採り入れており、Media Fragments URIに準拠した形でアノテーションもできます。たとえばこんな感じです。これは、manifestのjsonファイルとは別のファイルとして作成する必要があり、manifestファイルから参照する形になります。annotationファイルの例はこちらです。なお、annotationファイルは「list」というディレクトリに入っていなければならないようで、Presentation APIの仕様書にはきちんと書いてありますが、よく読んで取り組んでください。

f:id:digitalnagasaki:20160428184604j:plain

というわけで、この数日の苦労を惜しげもなく開陳してしまったわけですが、あまりに圧倒されたので、とりあえず日本の皆様にもこれをよく知っていただきたい、というか、フリーソフトを組み合わせるだけでちょっと時間をかければどこでも使えるようになる、そして、ここまでのことができるようになっている、ということをお知らせしなければと思ったのです。

このような枠組みに、世界中の多くのデジタルアーカイブ公開機関が賛同し、協働で新しい世界を構築しようとしているようです。参加機関のリストを見るだけでもかなり圧倒されますが、ここにリストされていない大型機関でもIIIF対応を進めているところがあるようで、少なくとも２箇所、知っております。そのようなことで、日本の関係機関の皆様におかれましても、この枠組みにうまく乗っていただけたらなあと、そして、システムを開発・提供する企業の皆様におかれても、うまく対応していただけたらなあと思うところです。

それから、本件については、特に @2SC1815J さんにいくつか重要なご教示をいただきまして、それがなければこんなに早くできることはなかっただろうと思います。感謝すること至極です。

最後に、この件について色々検討したりされる方々の資料作成が少しでも容易になるように、例示したURLやその他役立ちそうなURLを掲載しておきます。

規格関連

IIIF Presentation API

Media Fragments URI

IIIF Image API

周辺情報

IIIFコミュニティに参加しているデジタルアーカイブ公開機関のリスト

IIIF対応ビューワ Mirador

IIIF対応ビューワ　Universal Viewer

IIIF対応ソフト一覧

ハウツー