2016-07-30

簡易テクスト分析にVoyant-Toolsもいかがでしょうか？

先日ようやく、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点が開設する人文情報学概論（いわゆるデジタル・ヒューマニティーズ）の授業を履修した大学院生達によるVoyant-Tools日本語インターフェイスβ版が公開されました。そんなに腕に覚えがないのにデータを視覚化・可視化しなければらない人や、テクスト分析を手軽にちょっと試してみたい、という人向けの、簡単にちょっと使えるテクスト解析ツールです。そして、今回のバージョンでは、日本語の解析も普通にできます。分析したい頁のURLを集めてきて、まとめて貼り付けるだけで解析して色々な形で視覚化してくれます。複数ファイルをアップロードして解析することもできます。とはいえ、あんまり細かいことはできないのですが、Web環境でイージーに使える、というのと、ダウンロードしてJava環境でも使える（＝WindowsでもMacでもLinuxでも使える）というのが割と大きなメリットになる場合があろうかと思います。

　なお、このツールを作成・提供しているのは、カナダ・マギル大学のDHの准教授Stéfan Sinclair氏と、カナダ・アルバータ大学のGeoffrey Rockwell教授です。

では、たとえば、旧七帝大の総長の最近のご挨拶などのURLをちょっと分析してみましょう。

まずは、URL収集です。今回は下記のURLを使ってみています。

http://www.hokudai.ac.jp/introduction/president/message/282016.html
http://www.tohoku.ac.jp/japanese/profile/president/01/president0102/20160104.html
http://www.u-tokyo.ac.jp/gen01/b01_01_j.html
http://www.nagoya-u.ac.jp/about-nu/president/index.html
http://www.kyoto-u.ac.jp/ja/about/president/message.html
http://www.osaka-u.ac.jp/ja/news/topics/2016/01/files/20160104_01
https://www.kyushu-u.ac.jp/ja/university/president/message/150801message/

（なお、複数URLでなく、複数のファイルをアップロードすることもできます）

これらのURLを、下記のように、テキストエリアに貼り付けます。

f:id:digitalnagasaki:20160729235752j:plain

そして「結果を表示する」をクリックすると、下記のようになりました。Voyanto-toolsが以前から活用しているシーラスという機能を用いて、以前より高度な検索もできるようになった感じあります。

f:id:digitalnagasaki:20160730000026j:plain

しかし、このままでは助詞助動詞の類いが多く、文体の特徴はつかめるかもしれませんが、内容の特徴をつかむにはちょっと難しいような感じがします。そこで、「ストップワードリスト」を作って読み込ませてみます。ストップワードリストを作成するには、下記の図中の赤丸の箇所をクリックします。

f:id:digitalnagasaki:20160730032841p:plain

そうすると、下記のようなダイアログが表示されます。

f:id:digitalnagasaki:20160729235944j:plain

ここで、「ストップワード」のところの選択肢として「新規リストの作成」を選んで「リストの編集」をクリックすると、リストの編集画面が表示されます。この編集画面で、上記のシーラスの画像を見ながら、自分の分析には必要なさそうな単語をどんどん追加していきます。そして、「全体に適用」にチェックボックスがはいっていることを確認して、追加が終わったら「確認」をクリックすると、以下のような感じで、内容に関わる語が多く表示されるようになります。

f:id:digitalnagasaki:20160730000137j:plain

あとは、「スケール」をクリックしてみていただくと文書毎に選択できたりしますので、それで多少の傾向をつかんだりすることができるかもしれません。

また、ストップワードを全体に適用する、という操作を行ったので、他のツールも、、ストップワードが適用された状態で再描画されたはずです。それぞれに見てみてください。

さて、Voyant-tools 2.0の大きな目玉の一つは、複数文書を読み込んで文書館の関係を表示できるという機能です。Webブラウザのウインドウの右上の方にカーソルをあわせてから、赤丸をつけたアイコンをクリックしてください。そうすると…

f:id:digitalnagasaki:20160730000225j:plain

下記のようになります。（なお、ここで注意していただきたいのは、この表示では、それぞれのWeb頁のtitleタグを拾って表示しているので、どの文書がどれかわかりにくいことがあります。そういった場合に対応するためには、ローカルで個別にファイルを作成してアップロードする、という手もあります。ただし、ローカルファイルを使った場合、ファイル名ではなく、ファイル中のタイトルプロパティを用いることがあるようですので、あれ？と思ったらそこを確認してみてください。）

これは、メニュー・サブメニューが表示されるものとなっています。

f:id:digitalnagasaki:20160730000320j:plain

ここで「視覚化ツール」から「散布図」を選ぶと、各文書間の関係などが表示されます。また、「バブルライン」「タームラジオ」「テクスチャルアーク」など、選ぶと面白い結果を表示してくれる様々な機能が提供されていますんので、それぞれ試してみてください。下記は「タームラジオ」の例です。

f:id:digitalnagasaki:20160730020650j:plain

下記のグラフは、文書間の類似度を表示するもののようです。

f:id:digitalnagasaki:20160730035931j:plain

それから、今回のバージョンはスタンドアロンで利用することもできます。スタンドアロン版では、ネットにつながらない、サーバにつながらない、皆で一斉に使うと遅くなる、といった問題がなくなりますので、これはこれで結構便利です。詳しくは下記のURLをご覧ください。

https://github.com/sgsinclair/VoyantServer/releases/tag/2.1

なお、スタンドアロン版をパソコン上で使うにはJava実行環境が必要ですので、未インストールの方はとりあえずJava 実行環境をインストールしてください。

以下、最後まで読んでくださった方へのオマケとして、今回使った「ストップワードリスト」を掲載しておきます。無保証ですが、ご自由にご活用ください。

0
1
2
3
4
5
6
7
8
9
a
at
for
in
of
the
あり
ある
い
いる
おり
か
から
が
く
くだ
こと
ことに
この
これ
ご
さ
さらに
し
した
しま
する
その
それ
た
ため
だ
だけ
っ
って
て
てい
で
でき
できる
です
では
でも
と
という
として
な
ない
なく
など
なり
なる
に
において
における
について
の
ので
は
ば
へ
ま
ます
また
み
も
もの
や
よう
より
る
れ
れる
ろう
を
化
的
年

2016-07-01

「デジタルアーカイブ」を考える―「日本」がそのアイデンティティを取り戻すために

「デジタルアーカイブ」に関わる技術について、このブログでは主に扱ってきている。基本的に目指しているのは、そういう情報をきちんと共有して、「車輪の再発明」を避けつつ、無駄な投資も避けて、「デジタルアーカイブ」が適切な歩みを進めていくことに少しでも役立てばと思って、ブログだけでなく、呼ばれれば世界中どこでも参上して情報提供してきている。できれば交通費は出していただけるとありがたいが、大きな波及効果が見込まれる重要な会合なのにどうしても交通費を出せなければこちらの負担でおうかがいすることもやぶさかではない。

しかしながら、なぜ、自分がそういうことをしているのか、それによって何を目指しているのか、ということについてはあまり書いたことがなかったので、２ちゃんねる用語で言うところのチラ裏になってしまう上に、やや断片的になってしまうが、特に、最近重点的に考えていることを少しだけ書いておきたい。

明治維新を通じて、日本は色々なことが変わりつつ、変わらないところはそのままに、さらにその後の2度の大戦を経て現在に至っている。明治維新から2度の大戦の間に何が起きていたのかについては、わかっているようでわかっていないこともあり、国立国会図書館の近代デジタルライブラリーの登場と、その後の国立国会図書館デジタルコレクション（国デコ）の充実によって、それでも断片的とは言え、極めて多くの資料がデジタルで容易に入手できるようになり、いつでも参照できるようになってきた。筆者の専門に近いところでも、細かな情報が入手しやすくなったりして、戦前の専門分野の状況がやや立体的に見えてきたところがある。さらにそれが、どういう世界観、科学観の下で行われてきたのか、ということも断片的ながら見えてきて、現代と対比する面白さとともに、当時の人々に見えていた世界を、これまでよりも少し容易に、少し深く垣間見ることができるようになって、そのこと自体が興味深い体験となっている。それほど重要でない情報も含めた大量の資料に容易にアクセスできるようになることは、ややもすればメジャーな資料に偏ってしまいがちな認識から、世界・社会が常に多様性であってきて、色々な方向に進む可能性を常にはらみながら現在に至っているということを具体的に認識する契機になっている。これは健全な思考を形成する上で重要なことだと筆者は思っているので、そういう多様な全体を認識するための支援装置としての「デジタルアーカイブ」には深く期待している。また、そういう文脈からは、とにかく一定基準で大規模にデジタル化公開してしまう国デコのような在り方の重要性とともに、たとえば高橋晴子先生が長年続けておられる身装関連のデータベース群、特に「近代日本の身装文化」データベースのような、特定のテーマに絞り込みつつ研究者だけでなく専門家でない人にも理解しやすい情報を得られるようなものの有益さも忘れてはならない。そういったものが、Wikipediaにつながっていったり、あるいはまた、色々な人の様々な理解につながっていったりするような、多層的なつながりを形成し、それによって色々な時代の世界観や社会の多様性が共有されるようになっていくといいなあと思っている。

さらに期待しているのは、それよりも前、つまり、明治維新より前の世界観や社会の理解をより広げ、深めていくことである。たとえば、我々の「江戸」のイメージは、人にもよるが、わりと貧困であるように思われる。「江戸しぐさ」などというものが出てくるとなんとなく広まってしまって政府も一時は乗り出しそうになってしまったりして、そんなものはなかったと専門家が一生懸命否定する羽目になってしまったり、そうかと思えば「原発がなくなったら江戸時代に戻ってしまう」などとやたらと否定的なイメージで語られたり、あるいは、識字率が世界的にも極めて高かった、などといった断片的な良いイメージもある。さらに言えば、文明開化・和魂洋才といった形で、それ以前からの精神面は肯定しつつも技術面はとりあえず西洋のものを持ってきて接ぎ木しようとしたり、その一方で、廃仏毀釈によってその精神面もある種の分断が行われようとしたりしたようでもある。筆者が不勉強なこともあり、そこら辺の流れの正確なところはわからないのだが、敢えて言うなら、江戸時代、そしてそれ以前の「日本」（近代国家としてのそれではないにせよ）は、現代の我々から見ると、精神のみが断片的に受け継がれ、それ以外の部分は、なんとも座りの悪いまま「忘れてしまってもよい過去のお話」になってしまっているような感じがしているのである。

　このことに関して、少し前に経験したことがあったので書いておくと、フランスの人達とオープンデータとオープンアクセス、というか、日本で言うところの「デジタルアーカイブ」の話をしていた時に、会合に参加していた日本人から「文化の資料はそういう風に色々やっているが科学に関してはどうなのか」というような質問がでた。これに対する（いわゆる理系の）フランス人の回答が「これは科学の歴史なんだけど？」というものであった。ここで筆者が感じたのは、日本のアイデンティティの分散、というか、分断、であった。日本人にとっては、古い歴史の資料は科学とは関係ないものなのだが、フランス人にとっては歴史は文化社会の歴史であるとともに科学を発展させてきた基盤でもあるのだ。確かに江戸時代までの我々は、西洋から移入した科学とは少々異なる趣で自然の摂理を理解していた以上、そこにある種の分断があるのは仕方がないことではある。しかし、だからといって、我々がかつて自然を、そして世界をどう理解していたか、ということまで遠ざける必要はない。それぞれの時代の文化をうまく理解しようとするなら、どういう世界観・自然観の中で形成されているのか、ということを踏まえた上であってしかるべきだろう。また、そのようにして、我々が世界をどう理解してきたか、ということを知ることは、やや不安定化しつつある世界の中で、上記のように接ぎ木状態になってしまっているかのようにも思える日本のアイデンティティを多様なものの総体として適切に取り戻していく上で、大変重要になってくるのではないか、と思っている。たとえば、大蔵経（仏典の大規模叢書）には雨を降らせる方法を書いたお経、などというものがいくつも（1, 2, 3, 4, 5）入っていて、迷信と言ってしまえばそれまでだが、13世紀に高麗で刊行された木版大蔵経に残っていることが「デジタルアーカイブ」の高精細画像で確認できる状態のものもあり、空海がこの手法を用いていたとされているようなので、日本でも1000年以上前から受容されていた手法であり、さらに、Webでも公開されている古いお経の目録によれば、随・唐の頃にサンスクリットから漢訳されたものだということである。これらの一連のお経の文献学的な解説もWebで論文を読めるようになっている。（これはやや専門的なのでちょっと難しいかもしれないが）。こういったものが自然の摂理として受容され世界観の一部を形成してきた、ということを、こうしたWeb上の資料を通じて多少なりとも垣間見ることができる。その意味で、これもまた、日本のアイデンティティを多様な総体として取り戻していくことに資するものだと言える。ただ、お経となると、どうしても、そのまま皆が読んでいたかと言えばおそらくそうでもなく、むしろ、それが一般にどう受容されていたか、ということも含めた周辺状況が見えないことにはなかなか理解は難しい。

　そこで筆者が大いに注目かつ期待しているのは国文学研究資料館の「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」（歴史的典籍ＮＷ事業）である。これまでにも日本の古典籍の「デジタルアーカイブ」は早稲田大学や立命館大学をはじめ、各地で大規模に取り組まれており、その成果と貢献には多大なものがあるが、この歴史的典籍ＮＷ事業では、30万点の古典籍をデジタル化して公開し、研究に大いに活用できるようにするとしており、さらに、国文学だけでなく異分野との連携・融合を旗印に、総合的な日本の歴史的典籍の研究を推進していくことを目指しているようである。実際の所、味の素食の文化センターとの連携により、江戸時代の食文化に関わる資料を公開することになったり、古典籍中のオーロラに関する記述を探すイベントを開催したり（PDF5枚目の右側に記事が掲載されています）、さらには、医学関連書や本草学、和算等にも取り組んでいるということである。つまり、江戸時代以前を文学研究からとらえるのみでなく、当時の生活や自然の摂理も含めた総体として把握していこうとする取組みが、おそらくは、多様な古典籍の画像の公開とともに進められ、それらの成果も公開されていくのではないかと期待される。もちろん、さらに、画像へのタグ付けも組織的に進めていこうとしているということが先日の人文科学とコンピュータ研究会で発表されていたりもしたので、今後は、そういったタグを通じてアクセスしやすくなったり、解説もついたり、ということも、勝手ながら期待されるところである。今までも研究としてはそういう取組みが色々行われてきていて、本もたくさん出ているが、実際に当時の人々が読んでいたもの、見ていたものを比較的高精細な画像で参照しつつ読んだり理解したりしていく、ということができるようになるとしたら、これまでとはまったく違う状況が生まれてくるだろう。（もちろん、本そのものを手にとって見ているわけではないのでその点が不十分であることを忘れてはならないが）。くずし字が読めないとしても、挿絵が用意されている本も少なくない。たとえば、「閻魔（大）王」という言葉で理解するか、それとも下記の国文研オープンデータセットの画像の「閻魔（大）王」を見たり、さらに閻魔大王の筆記用具や従者の持物等に注目して拡大してみたりしながら理解するか、というのでは、ずいぶん理解の仕方が違ってくるだろう。

さらに言えば、くずし字学習アプリのようなものも出てきていて、すでに万単位でのダウンロードが行われたようであり、今後くずし字コンテンツがどんどん増えていくであろうことを想定すると、全体としてくずし字リテラシーがあがっていって、割と多くの人が読めるようになってしまうのではないか、という期待もしてしまう。

また、上記の画像の例は、単に物語への理解が深まるだけだと思われるかもしれないが、これは『仏鬼軍』という絵巻物語の一部であり、当時の信仰世界を当時の人々にとって理解しやすい形で提示したものであり、その意味では、当時の世界観の一部がここで垣間見えると言うことができるだろう。まだ十分に整理されたものではなく、筆者としても現在取り組んでいることの一つだが、これもまた「デジタルアーカイブ」のなせる技であり、また、IIIF Image APIによってこのようなことが極めて容易に可能となっているという点も強調しておきたい。

　さらに、歴史的典籍ＮＷ事業がある程度予定通りにいけば、かつての日本での自然の摂理への理解の仕方を含む様々な世界観の断片が、比較的高精細な画像を伴って理解できるような成果物としての「デジタルアーカイブ」として出来上がってくることが期待されるが、おそらくはそれだけでなく、様々な人が様々な関心と立場からかつての多様な世界観の断片を総体として再構築することができる環境としての「デジタルアーカイブ」もまた整備されることになると想定される。これらの「デジタルアーカイブ」こそ、「西洋」の導入によって我々のアイデンティティの中に生じた断絶をつなぎあわせて再びまとまった総体としての「日本」のアイデンティティを取り戻すための一つの大きな力になるのではないか、そして、そのようなアイデンティティこそが、日本社会が現代の様々な課題に向かっていくための揺るぎない足場になるのではないかと、筆者としては大いに期待するところである。

さて、筆者は、実は「グローバル化」のような話に割と入れ込んでいるのだが、このような話と、「グローバル化」の話をどのように折り合わせるかということについては、色々な観点がある。基本的には、ローカルなくしてグローバルはない、と考えているので、グローバルには常に意識を向けておく一方で、ローカルとは何か、ということを常に意識しておきたいと思っている。そして、実用的な問題としては、技術をグローバル化して、コンテンツはローカルのものをきちんとローカルとして提示する、さらに、グローバルな技術に対しても、ローカルを適切に対応させられないものはグローバル側に変わってもらう、ということが重要だと思っており、そのための交渉からプログラミングまで色々取り組んでいる。IIIF対応ビューワMiradorのページ遷移の方向を逆にする改良を行ったのはまさにそのような文脈からであり、この改良を報告したところ、ヘブライ語資料を扱っている人から喜びの声をいただくということもあった。黙ってグローバルを受け入れるとただ譲歩しただけで終わりになってしまうが、ただ文句を言うだけでなくこちらからアクションを起こせば色々な展開があり得る。TEIコンソーシアムに日本語SIGが設立されることになったのもこの文脈からのことで、ただ受容しようとしてうまくいかないから終わり、ではなく、グローバル側に対してローカルの要求をきちんとした手続きを経て提示していくことが肝要であると思っている。それは、ローカルにとってのメリットだけでなく、グローバルの価値を高めることにもつながり、結果としてローカルも含めた全体の価値が高まっていくことにもなる。それを理解しているグローバルなコミュニティには、積極的に参加し、協力し、連携していくことが、ローカルのためにも、つまり筆者の場合には、日本のためにも大きな糧になると思っている。

　…というのは技術のグローバル化の話だが、一方で、コンテンツローカルの話として、海外機関で所蔵されている日本資料をうまく統合していくという話がある。海外機関で所蔵されている日本資料が日本から適切に利用できるようになるためには、現在のようにIIIFが急速に普及しつつある状況では、海外の機関がそれぞれに自分のWebサイトから日本資料の画像を公開することになることが想定される。この場合、上述のようなグローバル技術へのローカルの組み込みが重要になってくる。ビューワでのページ遷移の方向などは典型的な話だが、縦書きの表記もそうだ。現状では、いずれもIIIFの問題ではなく、ビューワでなんとかすればよいという話なのだが（それで筆者はMiradorの改造を行ったのだが）、画像を共有するための枠組みであるIIIFは、今後さらに利便性を高めるべく、規格をより深化させてくるかもしれない。その過程で、日本資料に関する事柄がもし抜けてしまっていたら、海外機関で公開される日本資料が適切に扱えなくなってしまうかもしれない。そのようなことにならないように、引き続き規格の進展には注目し続ける必要があるだろう。　

　具体的な実践として、そのようなことに取り組んできたのだが、そうしてみると、やはりどうしても「日本」に行き着いてしまい、それをどうとらえるか、という問題に突き当たってしまうのである。DNAやらゴーストなどがささやいてくれるとよいのだが、そういうわけにもいかず、色々な状況に接しながらあれこれ考えていると、どうしてもアイデンティティが断片化してしまっているような感覚になってしまって、これをなんとかできるといいのだが、と思ってしまうのである。

　というようなことを、漠然と考えながら「デジタルアーカイブ」に取り組んでいる昨今である。まだまだ力不足・勉強不足なことも多く、上述のことも色々修正したり撤回したりすることがあるかもしれないが、基本的には、そのような観点から皆様のお手伝いを続けていけたらと思っている。

2016-06-30

「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました

このところ、IIIFの紹介に時間をかけてきましたが、今回は、もう一段深く資料を扱うための規格についてのご紹介です。

先にポイントだけ書いておきますと、まさにタイトルの通りです。もう少しかみ砕いて申しますと、人文学資料の中でも、特にテクスト資料に関しては、電子テクストというのがずいぶん前から使われてきています。電子テクストの場合、何はともあれ、皆が同じフォーマットで作った方が何かと便利です。そのためのルールが欧米を中心として1980年代から形成されてきていて、今やデファクト標準化しています。「デジタルアーカイブ」でも翻刻テクストをつけておこうと思ったりした場合、やはりこのルールに乗っておくのが後々何かと便利です。デジタル・ヒューマニティーズ分野の基幹技術の一つであり、Methodological Commons（方法論の共有地）を体現したものであるとも言えます。

このルールは、IIIFがそうであるように、すべてに完全適用できるものではなく、また、工業標準のように完全に確定したものでもありません。このテーマに取り組むコミュニティが形成されていて、その中で、全体に矛盾が生じないようにしつつ、様々なテーマに対応できるようなルールの拡張が続けられてきています。今もなお、新たにもたらされたテーマに対応すべく拡張が行われています。TEIについては、いくつか記事を書いたことがありますので、よかったら下記のURLなどをご参照ください。

TEIとoXygenの初歩 | Digital Humanities notes in Japan

http://nlp.nii.ac.jp/tawc/papers/W05_nagasaki.pdf

しかしながら、日本語資料への対応は未だ十分ではありません。これは、このコミュニティに参加する日本人が少なかったことが直接の大きな理由なのですが、なぜ参加する日本人が少なかったのか、ということを突き詰めていくと、あちらとこちらの課題がそれぞれ見えてきます。それについてはまた別に書くとしまして、長い議論の結果、日本語資料に対応するための環境を整備する分科会（Special Interest Group, SIG）を作ることになりました。TEI協会のWebサイト内にも、下記のように、この分科会がリストされ、これから本格的に始動することになります。なお、分科会の名称がEast Asian/Japanese、となっているのは、日本のテクスト資料が漢字文化圏の伝統と不可分であり、それを追究していくことが同時に東アジア全体のテクストの扱いともかなり重なってくるため、このような名称が今後の広がりを考える上で有益だろう、という判断が背景にあります。

TEI: Special Interest Groups (SIGs)

TEI: East Asian/Japanese SIG

これに関して画期的なのは、これまで特定の言語文化名を冠した分科会を作ったことはなかったので、ついにそこに踏み込むことができたという点でしょう。昨今の日本での「デジタルアーカイブ」の流れにおいても、この機会を最大限活かしていただけたらと思っています。

さて、この分科会での当初の課題は２点です。一つは、日本語に資料に対してこのTEIを適用する場合の、取り組みやすいガイドラインを作成することです。そして、もう一つは、そのガイドラインを作成していくなかでどうしても全体のルールに拡張が必要であるということになった場合に、それを行うことです。特に後者は、それを行うにあたってまずは分科会を作ることがTEIコンソーシアムの慣例の一つなので、そこに向けた第一歩を踏むことができた、ということもできるでしょう。

それから、これまで何度かご紹介してきたIIIFとの関係はどうなっているのかというと、翻刻（テキスト起こし）のところで深くつながっています。すでに結構盛り上がっていまして、IIIFで翻刻タグをつけることができますが、これをどういう風にTEIで表現するか、あるいは、TEIで書かれたものをどのようにIIIFで表現するか、といったことについての取組みが世界各地で始まっています。日本語資料の場合、どちらかと言えばテキスト構築よりも画像化してデータベースを作る方向に力を入れる傾向が強かったように思いますので、IIIFからTEI、つまり、画像に翻刻情報をつけていくところからテクストの構造化の議論に入っていくようにするのが一つの手なのではなかろうかとも思っています。

いずれにしましても、特にテクストを扱っておられる方々におかれましては、この機をうまく活用していっていただけたらと思っております。近々、これに関する会合を予定しておりますので、今後ともよろしくお願いいたします。

2016-06-21

「デジタルアーカイブ」における日本語古典籍＋翻刻とIIIF、そして皆様の取組み

IIIF IIIF応用

このところご紹介を続けている「デジタルアーカイブ」の画像共有のための国際規格、IIIFですが、今回は、日本語古典籍の扱いについての近況と、みなさまの取組みについて、知る範囲で少しご紹介させていただきます。

IIIFではあれができる、これができる、という話をずっとしてきました。一方で、ほとんど西洋の資料を中心に展開してきた話でしたので、日本や東アジアの資料にうまく対応できるのか、というところは気になっていたところかと思います。

規格に関する課題も、深く追求していくと色々あるのですが、それはかなり深い問題にまでつながるような話でもあり、文字の問題に行き着いて、Unicodeをどうするかということになってしまったりして、そもそも現在のコンピュータ上でうまくできるのかどうかという話になってしまうことも少なくないと思います。比較的浅いところでは、Linked Dataとして作られているにもかかわらず実質的にアクセスできないURIが大量に生成されてしまうという点を複数の人が問題視していますが、これはこの規格の問題というよりは運用上の問題であり、かつ、この規格が下敷きとしている別の規格では本来はそうしてはいけないということになっているのではないかと思います。（この点、私が運営するシステムでもそうなってしまっているので早急な対応が必要です。）

以前にも書いたように、色々な課題は基本的にコミュニティとして解決しながら先に進めていくということになっているようですので、やはり、一度対応させたらそれで終わり、ではなく、何らかの形で継続的にコミットしていけるような体制を作っていく必要があろうかと思います。

それはともかく、ここでは、規格はとりあえずこのままでなんとか対応するという前提で、表示の問題に限定して見ていきましょう。もちろん、ソフトウェアがフリーなので、各自で自由に自分達の資料に対応できるように改良してしまえば良い、というのがこの場合の建前なので、実際にソフトウェアを改良して対応させてみました。

具体的には、主にハーバード大学・スタンフォード大学等で開発されているIIIF対応ビューワ、Miradorを、突貫工事的に、縦書きのタグを表示させたり、左から右にしかページ遷移できなかったものを、右から左であるという設定をmanifestファイルにルール(この場合、 Presentation API )通りに書けば、それが反映されるようにしてみました。具体的には、下記のURLにてどういう風になっているかを見てみてください。

Mirador Viewer 縦書き右左対応版

（このMiradorのダウンロード）

…と、ちょうどこれを書いている時にスタンフォードの人がメールで知らせてくださったのですが、右左対応版も含むレイアウト全般に関する大幅な改良が施されたMiradorが開発中なのだそうです。上記のものは、その本家のきちんとしたものが公開されるまでの暫定的なものということになりますが、

このようにして、必要に応じて色々修正できること
本家としてはきちんとグローバルな文化資料に対応すべく改良を続けていること

という2点をご理解いただけますとありがたいです。

さて、上記のMiradorビューワでは、翻刻テクストがアノテーションとして表示されるようになっていますが、このデータは、カルガリー大学のX. Jie Yang 先生が入力してくださったものです。Miradorの場合、ライセンス関連の表示は右上のℹボタンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160621035910j:plain

入力システムは、Miradorではまだちょっと書きにくかったので、別途、OpenSeadragonを利用してざっと作成しました。下記のようなものです。

f:id:digitalnagasaki:20160621000817j:plain

もし、これを使って国文研データセットへの翻刻やタグ付けなどやってみたいという方がおられましたら私までお声がけください。ユーザ登録さえすれば誰でも使えます。（というのをクラウドソーシングと呼んでいいかどうかはちょっと悩みどころです。）成果はすべて公開されてしまいますが、すべてのタグに「誰がいつつけたか」の情報が付加されますので、attributionはきちんと保持されます。

私のところは、こういう感じで細々と合間合間に少しずつ色々進めておりますが、最近、日本でもIIIFへの取組みが徐々に広がりを見せておりまして、口頭でも色々なところで採用や採用への検討についておうかがいしているのですが、現在Webで見られるものに以下のものがあります。

神崎正英さんによる外部画像へのアノテーションシステム / Image Annotator

画本虫撰　Image Annotator

大正新脩大藏經図像部第9巻　Image Annotator

京都大学人文科学研究所守岡知彦先生による拓本文字データベースへの応用 / EsT image-resource

EsT image-resource = rep.id=zinbun...takuhon...kaisei...H1002...xywh=4298,2734,96,107

一般社団法人学術資源リポジトリ協議会によるデモサイト

IIIFのデモサイトの解説

Mirador Viewerによるデモ

実はあともう一カ所、しばらく前からIIIF Image APIに対応している組織があるそうなのですが、アクセスの仕方がわからないので、確認ができてご紹介しても良いということになったらご紹介させていただきたいと思います。

ところで、上記の翻刻を見て、気がついた人もおられると思いますが、あのままではテクストとしてはあまり良い案配ではありません。それをなんとかしようという動きがTEI関係で始まっておりまして、個人的にも、TEI とIIIFをいかにうまく連携させるかということに取り組んでおります。基本的に、タグをつけてもらったら、それをTEI P5 Guidelinesの<sourceDoc/>に自動的にマッピングしてしまって、さらに、リニアなテクストにも変換するというオーソドックスなアプローチを考えています。それについては9月末にウィーンで開催されるTEI会議で報告する予定なのですが、国内でもいずれどこかでご報告させていただけたらと思っております。ご興味がおありの方はぜひお声がけください。

というようなことで、引き続き、よろしくお願いいたします。

2016-06-06

仏教図像DBで学ぶ「デジタルアーカイブ」の国際規格IIIF

IIIF IIIF応用

前回の記事に書いたように、すでにフランス国立図書館のgallicaやDPLAをはじめ、様々な大手「デジタルアーカイブ」公開機関で採用され、国際的に採用が大きく広がりつつある、国際的な画像共有のための枠組みIIIF（International Image Interoperability Framework、トリプルアイエフ、と呼ばれています）ですが、今回の記事は、これに準拠して公開された仏教図像DB、SAT大正蔵図像DBを手がかりに、現時点でIIIFができる事柄を実践的に学ぶことを目指してみましょう。

SAT大正藏図像DBは、SAT大蔵経テキストデータベース研究会（代表・下田正弘東京大学教授）により、2016年5月に試験公開されましたが、その後、2016年6月3日に正式公開に至りました。ありがたいことに、正式公開とほぼ同時に、IIIFの公式サイトにも紹介していただきました（紹介記事、紹介サイトリスト）。元になった資料は、大正時代末期から昭和初期にかけて刊行された『大正新脩大藏經』100巻のうちの12巻分、大正新脩大藏經図像部（編）というもので、仏教に関する尊格や儀礼等の解説とそれに伴う図像が主に収録されているものです。これを、1頁分あたり6000万画素でデジタル撮影し、日本美術史の研究者43名が全国各地からWebコラボレーションシステムを通じて最初の2巻分の図像にタグをつけたものが、現在のSAT大正藏図像DBです。「デジタルアーカイブ」には色々な定義があるのでこれがそうだ・そうでないとは言い切れないのが残念ではありますが、広い意味では「デジタルアーカイブ」の一種と言えるものです。そして、公開にあたり、IIIFに準拠する形で公開しています。

　SAT大正藏図像DBでは、IIIFに準拠したことで、特別なシステム開発をすることなく以下のようなサービスを提供することができています。

簡便なフリーソフトにより画像の拡大縮小機能を提供
簡便なフリーソフトにより画像の一部に対するタグを表示
色々な画像ビューワ上で公開画像を表示
（各地の画像ビューワでタグ付けが可能）
各地のIIIF対応画像を同時に表示できるようにする機能を提供

さらに、このIIIF及びその代表的なビューワであるMiradorが提供する機能を応用することで下記のことを実現しています。

タグによる画像の特定箇所の検索
画像中の検索でヒットした箇所を拡大表示
上記の拡大表示を複数同時に表示
タグ内の特定テクストをクリックすることによる検索
漢字を入力せずにローマ字での読みや英単語を入力して検索

IIIFは、今のところは公開側にとってのメリットが大きいと言われていますが、現時点でも利用者側にとってのメリットはそれなりに存在しており、今後、IIIFの普及に伴って利用者側のメリットはどんどん大きくなっていくと思われます。そのようなことで、まずは主に利用者側のメリットという観点から、使い方とともにざっと見ていきましょう。

１．簡便なフリーソフトにより画像の拡大縮小機能を提供

http://dzkimgs.l.u-tokyo.ac.jp/SATi/images.php?vol=12b02

つまり、たとえば、こんな↓曼荼羅の画像を

f:id:digitalnagasaki:20160605163114j:plain

こんな風↓に拡大したり縮小したりできます。割とすいすい動きます。

f:id:digitalnagasaki:20160605163250j:plain

２．簡便なフリーソフトにより画像の一部に対するタグを表示

画像の一部に対してつけたタグを表示することができます。たとえば下記のような感じです。

f:id:digitalnagasaki:20160605164430j:plain

いわゆる絵引きなどとも呼ばれるものですが、ここでは各地の研究者の方々がWeb上でつけた、各図像についての情報がタグ上に表示されます。タグの表示は、画像上のタグの対象領域をマウスオーバーしたときに行われるようになっています。ここでは、タグは、IIIF Persentation APIに沿った形式で書かれていなければなりません。そうすると、対応ビューワに画像を読み込ませた時に自動的にタグを表示してくれます。

３．色々な画像ビューワ上で公開画像を表示

IIIFのImage APIとPresentation APIに準拠した画像の公開の仕方をしていると、色々な画像ビューワに画像を読み込ませることができます。ここまで見てきたのは、SAT大正藏図像DBで標準ビューワとして採用しているMiradorというビューワです。これは、主にスタンフォード大学とハーバード大学によって開発されているもので、おそらく現時点ではもっとも先進的なIIIF対応ビューワではないかと思います。が、他にも色々なIIIF対応ビューワがあり、それぞれ、manifest URIを読み込ませることで画像を表示したりすることができます。基本的には、IIIF manifest ファイルのURL/URIがわかれば、あとはそれぞれのビューワにそれを読み込ませるだけで、それぞれに利用できます。manifest URIは、SAT大正蔵図像DBでは、①ビューワの右上の方にある画像情報表示ボタンをクリックすると②下記の場所に表示されるようになっています。

f:id:digitalnagasaki:20160606085107j:plain

余談ながら、他の例として、たとえば、バチカン図書館の「デジタルアーカイブ」では下記の場所に表示されるようになっています。（このビューワは、NTTデータが頑張って独自に作っているものと想像されます。）

f:id:digitalnagasaki:20160602163433j:plain

フランス国立図書館のデジタルリポジトリ gallicaでは、どこを見ればmanifest URIを得られるのかよくわからないのですが、画像のURLからIIIF manifest URIを得る変換ルールを知ったので、それでなんとかしています。すでに前回のブログにも書いていますが、gallicaのデジタル化資料のURLの /ark: の前に/iiifを入れて、URLの最後に /manifest.json をつけるとその資料のIIIF manifest URIを取得できるのだそうです。

たとえば、下記はフランス国立図書館gallicaから公開されている北斎の絵のmanifest URIです。

http://gallica.bnf.fr/iiif/ark:/12148/btv1b10526554g/manifest.json

では、いくつかの例を見ていきましょう。Miradorと並んで広く用いられている有力なビューワに、Universal Viewerというものがあります。これは、ウェルカム財団、英国図書館等によって開発されているもので、画像だけでなく様々なメディアを扱えるという特徴を持っています。普通に表示するだけなら、とりあえず下記のリンクにて閲覧してみてください。

Universal VIewerで曼荼羅画像

Universal Viewerは、ダウンロード機能や「見たまま画面を共有」機能があり、単に画像を見たいという場合には十分に便利です。上記のURLでも曼荼羅画像の部分表示や全体を丸ごとダウンロードなども可能です。たとえば以下の例では曼荼羅画像の特定箇所の共有をしています。

Universal VIewerで曼荼羅の一部を表示

f:id:digitalnagasaki:20160606084948j:plain

あるいは、下記の画像は、フランス国立図書館のgallicaから公開されている北斎のIIIF対応画像の一部を拡大表示している例です。左下に用意されたアイコンをクリックすると、画像共有のURLを表示したり、画像ダウンロードの選択肢が表示されたりします。

Universal VIewerで北斎の一部を表示（下記のように表示されるはずです）

f:id:digitalnagasaki:20160606083111j:plain

それから、Universal Viewerは、Miradorと並んで「ドラッグアンドドロップ表示」に対応しています。たとえば下記のようにしてIIIF Manifest URIが仕込まれたアイコンがあったら、それをビューワにドラッグ＆ドロップするだけで表示できるという機能です。

さて、次のビューワも見てみましょう。diva-jsというビューワがあります。これは速度が売りらしいです。これは、外部からmanifest URIを読み込むことができず、ビューワのファイルにURIを書き込まなければならないので、とりあえず大正蔵図像の第一巻をご用意してみました。以下のURLにて実際に操作してみてください。

http://candra.dhii.jp/nagasaki/diva-v4.1.0/test.html

f:id:digitalnagasaki:20160605174233j:plain

Leaflet-IIIFというのもあります。これも軽快動作が売りのようです。

http://candra.dhii.jp/nagasaki/Leaflet-IIIF/examples/manifest.html

f:id:digitalnagasaki:20160606090627j:plain

最後に、Miradorに戻ります。これは、Universal Viewerと同様、ユーザが外部から画像を読み込ませることができます。すでにSAT大正蔵図像DBの画像は読み込んでしまっているので、今回は別のところからmanifest URIを持ってきてみましょう。とりあえず、下記、ハーバードミュージアムの仏像写真と、フランス国立図書館の画像のものを持ってきてみました。

http://oculus-dev.harvardx.harvard.edu/manifests/huam:198021

http://gallica.bnf.fr/iiif/ark:/12148/btv1b83001502/manifest.json

そして、次に、画面の左上にあるアイコンにカーソルをあわせると、下記のようにメニューが開きます。ここで「新しいオブジェクト」を選ぶと…

f:id:digitalnagasaki:20160606093347j:plain

そうすると、下記のような画面に切り替わります。ここで、上記のURLをコピーして「URLで新規オブジェクト追加」の欄に貼り付けて「Load」をクリックします。そうすると…

f:id:digitalnagasaki:20160606093555j:plain

下記のように、そのmanifest URIの画像がひととおり読み込まれますので、見たい画像をクリックすると拡大表示されます。もう一つのmanifest URIでも試してみましょう。

f:id:digitalnagasaki:20160606093822j:plain

さて、ここまで見てきたように、色々なビューワに各地の画像を読み込ませることができるわけですが、この場合に、manifest URIを得るだけで、一つ一つの画像を扱わなくても、ひとまとめとして扱うことができるというのは大変に便利なところではないかと思います。

それから、勘のいい人はもうお気づきかと思いますが、「自分のパソコン上のビューワで各地の画像を表示」することももちろん可能です。筆者自身、自分のWindows10やLinux上でMiradorを動かして色々試してみたりもしています。

４．各地の画像ビューワでタグ付けが可能

さて、話題の（？）タグ付け機能です。Miradorの2.1ブランチではこれに対応していて色々なタグをつけられるようになっています。（マニュアルにはちゃんと書いてないのですが、先日、Miradorの開発者の人に直接教えていただきました。）それから、まだ具体的には試していないのですが、スイスのIT企業がオープンソースで作成しているIIIF対応ビューワでも、タグ付けをできるような感じです。（このビューワは、スコットランド国立図書館で古地図を表示するのに採用されているようです）が、ここでは、Mirador 2.1の例をちょっと見てみましょう。

色々端折って、Mirador 2.1を私のところにあるサーバにインストールしてみました。

http://candra.dhii.jp/nagasaki/mirador2.1/mirador/

ここにアクセスして、たとえば、先ほどの北斎のmanifest URIを読み込ませてから、下記の画像の赤丸のついた箇所をクリックしてください。そうすると…

f:id:digitalnagasaki:20160606095418j:plain

下記のような画面になりますので、また赤丸のところをクリックすると…

f:id:digitalnagasaki:20160606095736j:plain

タグ付けモードになり、「どのようなタグをつけるか」色々選べるようになりますので、適宜色々試してみてください。タグの内容の入力の際にはHTMLエディタが下記のように開きます。

f:id:digitalnagasaki:20160606095551j:plain

つまり、フランス国立図書館が公開している北斎画像に対して、私のサーバ上のビューワでタグをつけることができる、ということになります。これもまた、技術的にはずいぶん前から可能だった事であり、実際には、できそうでできなかったことの一つです。今回、IIIFでは、技術的に画期的なのではなくて、実際にできるような仕組みを皆が共通のものとして採用するようになった、というところが画期的なのです。

　なお、上記の私がご用意したビューワではまだサーバ側での保存機能を用意しておりませんので、つけたタグをすぐに皆で共有することはできないと思いますが、そこをきちんと設定すれば、あちこちで色々共有が可能になります。

５．各地のIIIF対応画像を同時に表示できるようにする機能を提供

さて、次に、各地のIIIF対応画像を同時に表示できるようにする機能について試してみましょう。といっても、今のところこれは、Miradorでしかできないですが、むしろ、このような機能を応用したもっと別なソリューションが出てくることを想定しながらこの機能を体験してみるのが面白いのではないかと思います。

まず、SAT大正蔵図像DBに戻ってきてから、先ほどの、左上のアイコンにマウスポインターを重ねるとでてくるメニューにもう一度注目してみましょう。

f:id:digitalnagasaki:20160606093347j:plain

ここで、たとえば「右にスロット追加」というのを選んでみてください。

そうすると、画面が二分割されて、下記のように、右側に空の画面が表示され「アイテム追加」と書かれているはずです。そこで、右側の画面のどこかをクリックすると…

f:id:digitalnagasaki:20160606100949j:plain

また、下記の、マニフェスト一覧画面になります。ここで、たとえばもう一つの曼荼羅画像12b01をクリックしてみると…

f:id:digitalnagasaki:20160606093555j:plain

下記のようになります。これは、2画面で個々に拡大縮小できますので…

f:id:digitalnagasaki:20160606101218j:plain

下記のようにして一部を拡大して閲覧することができます。

f:id:digitalnagasaki:20160606101406j:plain

さらに、一度に細かく画面分割をすることもできます。画面の右上に「レイアウト変更」というリンクがありますのでこれをクリックすると、下記のような「レイアウト変更」画面になります。ここで…

f:id:digitalnagasaki:20160606101721j:plain

マウスカーソルをグリッドの上にもっていくと、下記のように、画面数とレイアウトを選択できます。今回は、２X３の状態でマウスクリックしてみましょう。

f:id:digitalnagasaki:20160606101843j:plain

下記のように、画面分割されます。ここで、あとは個々の画面に画像を読み込んでいけばいいのですが、いちいちコピペは面倒ですね。そこで、上記の「ドラッグ＆ドロップ」が便利です。たとえば…

f:id:digitalnagasaki:20160606102046j:plain

筆者がちまちまとボランティアの片手間仕事で作っているWebサイト、「国文研データセット簡易Web閲覧」では、公開されている古典籍350点のすべてについてIIIFマニフェストのドラッグ＆ドロップアイコンを用意していますので、これをちゃかちゃかと適当にドラッグ＆ドロップして少し見てみると以下のような感じになったりします。

f:id:digitalnagasaki:20160606102423j:plain

これで研究に役立つのかどうかと言われると、これだけだとなかなか微妙なところはありますが、フランス国立図書館の画像はこういう形ですでに使えますので、あとは必要なURIを入手できれば色々役立っていくだろうと思います。とりあえず現時点では、色々な可能性を感じていただけたらと思います。筆者としても、今後、色々な場面でこれを活用していきたいと思っております。写本の利用例としては、前回のブログでも少し触れました。参考画像を一つ提示しておきます。

f:id:digitalnagasaki:20160602163115j:plain

さて、IIIFが提供する基本機能についての説明は大体このくらいです。以下では、それを魔改造（？）して、仏教図像の検索閲覧を使いやすくするために開発した機能について、若干説明いたします。

６．タグによる画像の特定箇所の検索

SAT大正蔵図像DBのタグは、津田徹英氏を中心とした、43人の日本美術史研究者がWebコラボレーションシステム上で共同で付与したものです。タグの内容は津田氏によって作成されたもので、語彙は多少の出入りがあるものの、基本的に決まったメニューから担当者が選択していくという形で作業は行われました。タグの内容は、タグ検索機能からある程度確認できます。下図のように「タグ」という青いボタンがありますので、それをクリックすると、検索用タグ一覧が表示されます。

f:id:digitalnagasaki:20160606103828j:plain

ここで、たとえば、「持物」で「剣」をクリックすると、検索窓に検索式が入力されます。この状態で「検索」ボタンをクリックしていただくと…

f:id:digitalnagasaki:20160606104156j:plain

以下のように、検索結果が表示されます。タグ一覧のダイアログは最小化したり閉じたりできますので、適当に邪魔にならないようにしてください。

f:id:digitalnagasaki:20160606104300j:plain

下記のように、タグ付けされた箇所が頁から切り出されて表示されるようになっています。この画像切り出しには、IIIF Image API を用いています。

f:id:digitalnagasaki:20160606104456j:plain

尊格が結んでいる印についても検索できます。ただし、印の名称について入力するのはかなり困難であると思われたため、「指を伸ばしているか曲げているか」が入力されており、それを以て検索できるような仕組みとしております。たとえば、下記のような感じです。

f:id:digitalnagasaki:20160606105637j:plain

普通に文字列を入力して検索することも、もちろんできます。その場合は、尊格の名称もタグの内容も全部一括して検索します。知っている仏・尊格等の名前で検索してみてください。

　なお、検索の際には、SAT大蔵経DBと同じ、異体字あいまい検索システムが裏側で動いております。たとえば「阿弥陀」で検索すると、自動的に「阿彌陀」でも検索して検索結果を表示します。この機能を実現するにあたっては、京都大学人文科学研究所の守岡知彦氏が開発しているCHISEの文字関係情報を利用しています。

７．画像中の検索でヒットした箇所を拡大表示

　さて、検索結果画面で、青字で表示されているページ番号をクリックすると、そのタグ付けされた箇所が拡大された状態で表示されます。これは、Miradorをややトリッキーな使い方をすることで実現している機能です。下記の例は、「象を台座としている」という検索結果から、ヒットした図像のページ番号をクリックして尊格を表示してみた例です。このように、タグの箇所が拡大表示されます。

f:id:digitalnagasaki:20160606111054j:plain

８．上記の拡大表示を複数同時に表示

　検索結果表示画面では、それぞれの図像にチェックボックスがついています。これらをクリックすると、小さなダイアログが開いて、そこに順次図像のサムネイルがリストされていきます。下図のような感じです。ここで、「並べて表示」ボタンをクリックすると…

f:id:digitalnagasaki:20160606111643j:plain

下図のように、選択した箇所が拡大・並置されます。これもやはり、Miradorをかなりトリッキーな方法で使っている例です。

f:id:digitalnagasaki:20160606111747j:plain

９．タグ内の特定テクストをクリックすることによる検索

　さて、画像の頁を表示させると、そこでタグがホップアップします。このタグに書かれている個々の内容は、クリックするとその要素での検索ができます。たとえば、下記のように、「坐法：半跏趺坐・右足上」をクリックすると…

f:id:digitalnagasaki:20160606112345j:plain

下図のように、その坐法のタグをつけられた図像が検索結果としてリストされます。

f:id:digitalnagasaki:20160606112437j:plain

この機能は、色々応用が利くと思いますので、ぜひお試ししてみてください。

１０．漢字を入力せずにローマ字での読みや英単語を入力して検索

最後に、これもSAT大蔵経データベースの機能をほぼそのまま持ってきたものですが、東京大学のチャールズ・ミュラー先生によるDigital Dictionary of Buddhism の公開情報を使って、「ローマ字での読みや英単語を入力して仏教用語を探し出す」ことを支援する機能を提供しています。たとえば、下図のように「monju」と入力して、「検索」ボタンの左隣の「EN」というボタンをクリックすると、下記のようにDDBの検索結果が表示されます。ここで、気になる言葉をクリックすると、その単語が検索窓に入力されます。

f:id:digitalnagasaki:20160606113031j:plain

この機能は、日本語や漢字をどうしても思いつかない場合にも役立つことがありますので、ぜひお試しください。

終わりに

ということで、いかがでしょうか。ポイントは、とにかくあちこちで公開されている画像を一元的に扱えるようになるということだ、と実感していただけたらと願っております。検索機能に関しては、まだIIIFの規格の方に検討の余地があるかもしれないということで今回はSearch APIは採用しておりません。これは今後の大きな課題の一つだと思っております。

　何度か書いてきましたが、この仕組みが一般化してしまうと、この仕組みに乗ってない画像はなかなか見てもらえなくなるという事態に陥ることが割と容易に想定されます。IIIFの仕組みとしての導入はかなり低コストです。問題になるのは、むしろ所蔵者・権利者のご意向ということになりますので、そこはやや難しいところではありますが、「デジタルアーカイブ」的なものの管理や発注に関わる皆様におかれましては、そういった方々へのご説明や説得等も含め、IIIFへのご対応にそろそろ取りかかっていただくのがよい時期ではなかろうかと思います。

　このブログ記事が、みなさまのお役に立ちますと幸いです。今後とも、よろしくお願いいたします。

2016-06-02

「デジタルアーカイブ」における画像共有のための国際規格IIIFについてのご紹介（続）

IIIF

f:id:digitalnagasaki:20160602173905p:plain 　IIIF　International Image Interoperability Framework 国際的な画像相互運用の枠組み

断片的な紹介ばかりで恐縮だが、IIIFのメリットが見えにくい、先の見通しが見えにくい、という話をいただくことが多いので、もう少しわかりやすくなるようにまとめ直してみたい。

IIIFは、その名の通り、Web上での画像のやりとりの仕方を効率化するための手法であり、それ以上でもそれ以下でもない。これがそのままデジタルアーカイブの基幹部分として使えるという風に考えてはいけない。基幹的なデジタルアーカイブを前提として、その画像やその他のデータをやりとりしやすくするための仕組みなのである。その観点からみれば、これまでにはなかった部分を埋める規格であると言える。

では、画像のやりとりの仕方がどのように効率化されるのか。大きなポイントは２点だが、その結果、様々な面での効率化が達成され得る。簡単に図式化してみると、たとえば、以下のような感じである。

f:id:digitalnagasaki:20160602162839j:plain

利用者側の問題：

一つ一つのサイトの使い方を覚えないと…
一つ一つアクセス・検索しないと…
ダウンロードできないと情報集約も大変
使い勝手改善の要求になかなか対応してもらえない…
利用条件がよくわからないことが…
便利なはずのデジタルで何故…？？

提供者側の問題：

システム開発・仕様決定にかかる費用と手間が…
他機関と連携しようとするとさらに手間が…
利用者からの色々な要望に応えきれない…
すぐにダウンロードされるのでどう使われているかほとんどわからない…
公開してもなかなか個々の利用者に発見してもらえない…
デジタルなのにメリットを全然活かせてない…

f:id:digitalnagasaki:20160602162841j:plain

利用者側にとっての解決事項：

必要なデジタルアーカイブとはビューワが裏側でやりとりしてくれるので：

利用者の学習コスト・探索の手間が大幅に低減。

ビューワの改善要求は自分が利用するビューワの開発者に要求するだけでよくなる
好み・用途に応じて適宜ビューワを変える事が可能。
ライセンス表示も必須化されるので再利用可能性がすぐにわかる

提供者側にとっての解決事項：

公開に関するシステム開発は共同開発してフリーソフトで。仕組みも皆で協力して決めて共通化。
皆でやりとりしやすい仕組みにして容易にやりとり。
利用者からの要望も皆で対応。皆で協力して開発者を支援。
ビューワに把握してもらえば利用者まで届く道ができる。
サーバに置いたまま、タグ付けも含めて外部のシステムから利用できるので利用記録から利用状況を把握しやすくなる

f:id:digitalnagasaki:20160602162845j:plain

これまでの「デジタルアーカイブ」では難しかったことも

外部からの自由なタグ付けの仕組みによる自由で多様な文脈の付与
様々なタイプの横断検索（多様な文脈付与の一環とも言える）
より高度な教育教材の可能性
キュレーター養成用教育システム
その他、自由で多様な「ポータル」構築が可能に。

⇒多様な産業の発展の可能性も

f:id:digitalnagasaki:20160602162835j:plain

さて、ここまで見てきたように、色々なメリットがあるのだが、一つ、見過ごしてはならない重要な注意点がある。それは、このIIIF自体はデジタルアーカイブの基幹技術ではない、ということだ。あくまでも、インターフェイスとして利便性の高い公開の仕組みであるというに過ぎず、アーカイブとしての保存に関しては、これにそのまま依存すると危険なことになる可能性があるので、保存に関しては別途きちんとしたメタデータを付与した形でデータベース等に保存し、それを公開するにあたって、データベース等からIIIF形式でデータを公開するような形にするのが妥当であると思われる。いわば、「インターフェイスに関する様々なニーズへの対応コストを下げつつさらに幅広い活用可能性を実現する」という目標に特化されたものと考えていただくとよいと思う。IIIFとしても、公開している規格は「Application Programming Interface」と称しているように、あくまでも「インターフェイス」なのである。

また、上記の説明を踏まえて、下記、少し実際の画面のキャプチャを見てみよう。まず、先日もブログで書いたように、色々なビューワを選択できる。以下の画像は、Mirador、Universal Viewer、diva-js、Leaflet-IIIFをそれぞれ試してみた例である。MiradorとUniversal Viewerは外部からのManifest URIドラッグ＆ドロップ機能があるので容易に試してみることができるが、他の二つはその機能をまだ搭載していないので、上記のリンク先にてそれぞれ用意してみている。

f:id:digitalnagasaki:20160602162953j:plain

特に、IIIF対応ビューワで今のところ最も進んでいるとみられるフリーソフトMiradorは、

・複数画像を拡大縮小可能な状態で同時に並べられる

・外部画像をユーザが簡単に（ドラッグ＆ドロップでも）表示できる

・とってきた画像にユーザがタグをつけられる

という機能を備えている。

たとえば、下記の例は、SAT大蔵経画像DBを見ている最中に、バチカン図書館のデジタル化資料のmanifest URIを読み込ませて並べて見た例である。

f:id:digitalnagasaki:20160602163024j:plain

バチカン図書館は、ご存じの通り、NTTデータがデジタル化に取り組んでいるが、それゆえ、欧州の標準的なデジタルアーカイブの動向に対応せざるを得ず、IIIFやTEIなど、日本ではまだなじみの薄い技術にも取り組んでいるようである。これは大変ありがたいことで、NTTデータの英断には深く感謝している。

　たとえば、バチカン図書館のサイトで左上のアイコンをクリックすると、下記のように書誌詳細情報が表示される。この中に「IIIF manifest URI」というのが表示される（赤枠をつけたところ）ので、これをコピーすれば、他のIIIF対応ビューワで表示できるようになる、というわけである。（manifest URIについては先日のブログでも紹介した通り）

f:id:digitalnagasaki:20160602163433j:plain

こういった例ばかりだと、絵に興味を持っている人にしか関係がなさそうな気がしてくるが、ところが、IIIFはむしろ、写本をどうにかしたいという人達が力を入れていることから、そういった方面への活用も色々追究されているようである。

　たとえば、下記の例は、Miradorの画面分割機能を使って３種類の「妙法蓮華經（法華経）」を並べたものだ。フランス国立図書館で公開されている敦煌写本がすでにIIIF対応になっているので、その画像と、東大総合図書館等から公開されている１６世紀末の木版本と、大正末期～昭和初期に活版印刷で刊行された大正新脩大藏經の画像を、私のコンピュータに入っているMirador中で並べてみているところである。そしてさらに、フランス国立図書館の画像にタグもつけてみている。

f:id:digitalnagasaki:20160528222334j:plain

Miradorの画面はもっとたくさん分割することもできるので、たとえば、６分割してみて法華経関係の図像も入れてみたのが下記のものである。まだ見たりタグをつけたりするだけなのだが、ここまでできることがわかれば、あとは色々なことができるということは大体想像がつくだろう。

f:id:digitalnagasaki:20160602163115j:plain

IIIFはどれくらい広まっているのか？どれくらい普及しそうか？

さて、ここまで、とりあえずIIIFが普及したらよさそうだという話を書いてきたが、では実際どれくらい普及しているのか。そして、今後どれくらい普及しそうなのか、ということだが、まず、フランス国立図書館のgallicaは基本的に全面対応しているそうだ。確かに、gallicaから公開されている敦煌写本のURLで確認してみると、いずれもIIIF manifestとしても公開されていることが確認できた。

（ gallicaのデジタル化資料のURLの /ark: の前に/iiifを入れて、URLの最後に /manifest.json をつけるとその資料のIIIF manifestを取得できるのだそうだ。）

これをアイコン化してドラッグ＆ドロップできるようにしたのが下記のものである。

ちょっと脱線＆復習すると、これらを、たとえばどこかにセットアップした（自分のパソコン上でもOK）MiradorやUniversal Viewerにドラッグ＆ドロップすれば敦煌写本が見られるし、同様にして対応したものが出てくればみられるようになる。また、これは開いた時点では最初の頁が開くだけだが、開き方を工夫すれば特定頁の特定箇所をいきなり拡大表示させることもできる。たとえば下記のような感じで。

f:id:digitalnagasaki:20160519031149p:plain

さて、脱線から戻ってくると、フランス国立図書館ではそういう感じなのだが、他に大きなところでは、DPLAが550万点、ハーバード大学が図書館とミュージアムをあわせて32万5千点、ウェールズ国立図書館が20万点、だそうです。それから、英国図書館が近々全面移行、という話を聞いております。こちらの参加機関リストを見る限りでも、有力研究図書館、国立図書館だけでなく、Europeana、Internet Archive、World Digital Libraryなど、統合系の「デジタルアーカイブ」も参加表明して、徐々に対応していっているようです。最近、あれよあれよという間にこのリストがのびていっていて、ちょっと驚いているところです。

　しかし、一方、もう一つ最近驚いたのが、その参加機関リストに全く掲載されていないブリティッシュコロンビア大学に先週行ってみた時のこと、当地のデジタルコレクションを見せていただいて色々解説をしていただきながらWeb頁などを見ていたら、なんと、IIIF manifestがすでに用意されていたのでした。下記のように、「Embed」という項目に掲載されていたのですが、

f:id:digitalnagasaki:20160602172736j:plain

そうすると、たとえば、下記の画像のmanifest URIをコピーして…

f:id:digitalnagasaki:20160602181118j:plain

こういう感じ↓で、自分のビューワに表示させて拡大縮小したりタグをつけたりできるわけです。

f:id:digitalnagasaki:20160602182218j:plain

（この画像は、Mirador2.1のタグ付け機能を利用している例です）

このように、IIIF参加機関として表明していないようなところでもIIIFをばっちり採用しているという状況ですと、もう容易には把握できないレベルで世界中に広まってしまっているのかもしれない、ということが想像されるので、それが先週の驚きだったのです。

　さて、ここでまた色々考えたのですが、そもそもIIIFというのは既存の技術を組み合わせて使いやすくしているに過ぎなくて、特に公開する側の負担はかなり小さいのです。なにしろ、フリーでも公開されている画像配信用サーバをインストールして（インストール方法はこのブログで解説できる程度のものです）、すでに用意されているメタデータと画像情報をもとにしたJSON-LD形式のファイルを作るだけなのです。

　ブリティッシュコロンビア大学の例など、おそらく、エンジニアがちょこっとスクリプトを書いたら対応できてしまった、というくらいのことだろうと思うのです。私も、国文研データセットのIIIF対応は、タグの表示以外の部分では、割と簡単にできてしまいました。SAT大正蔵図像DBの方は、画像の容量がかなり大きいので色々対策をしたりタグを表示させてその内容からクリックで検索できるようにしたりとあれこれ工夫したので結構大変でしたが、標準的な対応だけであればかなり簡単です。組織内にデータ処理がある程度できるエンジニアを抱えていれば、技術的にはすぐに対応できてしまうと思います。

　日本の機関ではまだあまりIIIFへの対応が広がっておらず、その理由としてはやはり画像公開に関わるライセンス的な問題をどうクリアするかということがあるのだろうと思っていましたが、もう一つの大きな理由として、そういうことにちょこっと対応できるような組織体制になっていないということがあるのかもしれないと思ってきています。

　IIIFの興味深いところは、いわゆる標準規格のように厳密に決めた仕様を皆で使うというよりはむしろ、コミュニティを形成して、そのなかで話し合いながら、後方互換性を保ちつつ改良を進めているという点です。これは、人文系テクスト資料のデジタル化のデファクト標準であるText Encoding Initiative (TEI) でも同様の体制をとっているのですが、それゆえ、日本の規格好きな人にはあまり好かれない傾向があって、日本がこういった動きから遅れをとりやすい理由の一つなのかもしれないとも最近思っています。また、ここまで見てきた限りでは、IIIFに関しては、研究図書館や大学の研究支援組織のようなところにいるエンジニアが開発や仕様策定やシステム開発に関わっている例が多いような感じがしております。この点、日本の同種の組織では、技術的なことは業者に発注してかっちりしたものを作ってもらうという流れが強いような感じがしていて、それも、今回、あまり気がつかないうちにいつの間にかIIIFがかなり広まっていた…という理由の一つだろうかと思っております。つまり、日本にカウンターパートがほとんど存在しない領域で起きている事態ゆえに対応が遅れているということなのかもしれない、ということです。

　いずれにしても、この技術の広がりと適用可能性を考えると、今後、IIIF対応画像を対象とした分野特化型のポータルやツールなどが色々できていくだろうと思っているのですが、とりあえず、なんとか日本からも対応していかないと、近々、「IIIF対応の画像でないなら扱いません」という話になってしまいかねないと危惧しています。（というか、オフレコということで、某所でそういう話を最近聞いたので、それも危機感のもとになっています）

　そこで、敢えて、この種の話への日本のカウンターパートというのを考えて見ると、研究者の一部かIT企業、それも、文化資料に関心を持って取り組んでいる方々、が頭に浮かびます。ですので、とりあえず、知り合いの研究者や関連IT企業に声をかけてみてまわっているところです。

　また、持続可能性という点なのですが、我々は特に、Webが登場してからというのも、大体5年くらい、長くても10年くらいで技術を更新しながらやってきています。今はHTMLは5.0ですし、Web2.0的な技術はすっかり広く使われるようになりました。IIIFは、コミュニティでの取組みという側面が強く、現在も少しずつ変更されていってますので、がっちりとした規格ではないですし、今後もそういう風にはならず、むしろフレキシブルに多様なコンテンツを取り込み続けていくのではないかと思うのですが、むしろ、技術が変わっても対応できるような体制を作る、そして、技術が変わっても更新しないでよい部分（データの内容など技術に依存しない部分）は更新せずに済むように、データ・プログラム・アルゴリズム・インターフェイスといったものをきちんと切り分けておく、といったことが重要になっていくのではないかと思います。特に文化資料・学術資料の場合、今のところは、プログラムやアルゴリズムに比べてデータ作成に時間と手間が大きくかかるという状況ですので、特に、良き「デジタルアーカイブ（ズ）」の構築を目指すなら、データの持続性をなるべく保ちつつ、プログラムやアルゴリズム、あるいは、特にインターフェイスについては、なるべく使いやすいものを提供できるように、技術の進展にあわせて入れ替えていけるようにしていくのが肝要ではないかと思っているところです。

　とはいえ、そういう体制を作るのは難しく、それでもいつか、えいやっとIIIFに踏み込まなければならない（＝IIIF対応としてシステム発注する）時が来る場合もあると思いますが、その意味では、そろそろ大丈夫なのではないかと思います。

　最後、途中からですます調になってしまって若干読みにくいかもしれませんが、ご容赦ください。それから、まだあまりピンとこない関係者の方がおられましたら、また別な説明の仕方を考えて見ますのでお知らせくださいませ。

2016-05-19

仏教関連の図像データベースがIIIF対応で公開されました。

IIIF IIIF応用

SAT大蔵経テキストデータベース研究会（代表：下田正弘東京大学教授）より、大正新脩大藏經図像データベース:SAT大正蔵図像DB（ベータ版）がIIIF（International Image Interoperability Framework）対応かつタグ検索機能付きで公開されました。

今回データベースとして公開されたのは、大正新脩大藏經全100巻のうち12巻を占める、図像とその解説を主とした部分で、「図像部」「図像編」などと呼ばれているものです。正式なご紹介については、上記URLのサイトにアクセスすれば表示されると思いますのでそちらをご覧ください。こちらのブログでは、使い方と技術面の話を少し書いてみます。

高画質画像とページ画像内の各図像へのタグ付与をテーマとして進めてきたプロジェクトでしたが、運の良いことに、このブログで何度か採り上げてきたIIIFが、ようやくきちんと使えるようになり、こういった利用に比較的適しているMiradorというビューワも出てきましたので、これに全面的に対応しました。

裏話はともかく、まずは使い方の解説です。

はじめの画面

最初のページにアクセスすると、ご紹介文のウインドウが表示されます。このウインドウを下までスクロールして閉じると、最大サイズ（6000万画素画像を25枚つなげたものです）の曼荼羅をご覧いただけるようになっています。まずは拡大縮小してみて、スムーズにできるかどうか試してみてください。スムーズにできなければ、サーバが混雑しすぎているか、手元のネットワーク回線がちょっと無理だと言っているかのどちらかです。

f:id:digitalnagasaki:20160519030706p:plain

普通にページめくりで閲覧

普通にページをめくって見ていく場合は、ページの上部に「第1巻」「第2巻」というリンクが用意してあるのでそちらをクリックしてください。あるいは、ビューワMiradorの左上のボタンをクリックして「新しいオブジェクト」を選んでいただくと、このシステムに登録されている画像群（マニフェスト）のリストが表示されます。いずれかをクリックするとそのマニフェストが表示されるようになっています。マニフェストを表示すると下図のようになります。下部にずらっとならぶサムネイルにマウスカーソルをあわせると、そのページが含まれる文献のタイトルがポップアップ表示されますので、必要に応じて確認してください。

f:id:digitalnagasaki:20160519030448p:plain

画像につけられたタグを検索

SAT大正蔵図像DBでは、タグを検索できます。また、有名な名称はローマ字表記等でも検索できます。たとえば「bishamon」の検索結果は以下のようになります。タグ付けの対象となった画像が切り出されて表示されます。（IIIF Image APIを使っています）そして、ページ番号のところをクリックすれば、その画像が含まれるページを開けるようになっています。

f:id:digitalnagasaki:20160519030759p:plain

大きなサイズでヒットした画像を確認

検索結果画面の画像をクリックすると、下記のように拡大表示されます。単に大きいサイズで確認しただけの場合はこれが便利です。カーソルの左右キーや画面左下の矢印キー等で、この検索結果画面の画像を順次見ていくことができます。

f:id:digitalnagasaki:20160519031114p:plain

複数の画像をそれぞれ拡大縮小できるように並べて表示

検索結果画面のチェックボックスをクリックすると、小さなカートが表示されて、そこに小さなサムネイル画像が表示されます。これは、チェックボックスをクリックするたびに小さなサムネイル画像が追記されていく仕組みとなっています。ここから削除したい場合は画像をクリックすれば削除されます。ひととおり、並べて閲覧したい画像を選んだら「並べて表示」ボタンをクリックすると下記のように並べて表示されます。それぞれのウインドウで拡大縮小されますので、気になる画像の周囲の状況を確認するときなどにも便利だと思います。

f:id:digitalnagasaki:20160519031149p:plain

タグで検索（その１）

画像上のタグ付けされた箇所にカーソルをあわせると、タグの内容が下図のように表示されます。ここのタグではきちんとつけたものではないので情報が少ないですが、「邪鬼：複数」をクリックすることで、「複数の邪鬼を台座にしている図」で再び検索をすることができます。

f:id:digitalnagasaki:20160519031157p:plain