欧米の文献学者によるデジタル文献学の最先端と欧州デジタルアーカイブの最先端

来週月曜日(9/10)、一橋講堂(東京都千代田区)にて、無料公開国際シンポジウムが開催されます。参加費無料・要登録で、登録は本日までです。バート・キャベル先生、ユリア・ノルデグラフ先生、スーザン・シュライプマン先生による、同時通訳付きのご講演です。文化資料を対象としたデジタル技術の研究活用についての最新動向を、日本とヨーロッパの例を中心として日本語で聴講できるまたとない機会です。まだ残席ございますので、ぜひご登録&ご参加をお待ちいたしております。詳しくはこの記事の下をご覧ください。

 

無料公開国際シンポジウムの背景とさらなるお誘い

このブログでも何度か触れてきましたが、欧米の文献学者の中には、デジタル媒体をきちんと活用していこうという流れが強くあり、それを反映したデジタル化ガイドラインも作成され、技術の進歩にあわせて改訂が続けられてきています。そのガイドラインの策定・改訂を欧米で長らく担ってきたTEI (Text Encoding Initiative) 協会が、今回初めて、欧米を離れて日本で年次大会を開催します。欧米の文献学者(IT専門家ではなく)が主導するデジタル文献学を日本で知ることができるという、絶好の機会になります。年次大会の事前申し込みは締め切りましたが、当日申し込みも可能ですので、ぜひお越しください。

 

無料公開国際シンポジウムをもう少し詳しく

これにあわせて開催される日本デジタル・ヒューマニティーズ学会の年次国際学術大会JADH2018と合同で開催されるのが、冒頭でご紹介した、無料国際シンポジウムです。

ロバート・キャンベル先生は、すでに日本でも有名な先生ですが、現在は、国文学研究資料館の館長として、日本古典研究のための大規模デジタル化プロジェクトを率いておられます。

ユリア・ノルデグラフ先生は、音声・映像や文化遺産の保存と利活用の研究に取り組んでおられ、アムステルダム大学のデジタル文化遺産の教授としてヨーロッパの文化資料のデジタル化と利活用を先導しておられます。

スーザン・シュライプマン先生は、アイルランド詩の研究の傍ら、欧米のデジタル・ヒューマニティーズを牽引する活動に長らく取り組んでおられ、米国で長らく仕事をされた後、アイルランドに移られました。米国では、この分野の研究者を育成するとともに欧米で決定版とされる入門書を2度にわたって編集・刊行し、現在はアイルランドクラウドソーシング翻刻プロジェクトを率いるなど、多方面で活躍しておられます。

 ロバート・キャンベル先生のお話から、日本の古典籍デジタル化の最先端をおうかがいできることは言うまでもありませんが、

 デジタルアーカイブに関心をお持ちの方は、ユリア・ノルデグラフ先生のお話から、ヨーロピアーナの先にある姿をイメージできると思います。

 文献学のデジタル化(単なる文字起こしではなく)についてご関心をお持ちの方は、スーザン・シュライプマン先生のお話から、文献学を含む人文学の社会における位置づけを含む多くのことを学ぶことができると思います。

 特に、海外からいらっしゃるお二人の先生のお話を、日本で日本語で聞ける機会は非常に貴重です。この機会を、ぜひ、ご活用いただければと思っております。

 

デジタル校訂テクスト作成のMOOCに日本語字幕がつきました

このところ、東京大学で開講されている人文情報学に関する授業を通じてDHへの取組みを始めた大学院生を中心に、近隣の若手研究者にも加わっていただいて、「デジタル校訂テクスト作成のMOOCに日本語字幕をつける」という取組みを行っていました。

 

やや長目の前置き

 ここで一つ、お断りしておかなければならないのは、「校訂テクスト」という用語です。「校訂」という言葉には、誤ったものを訂正するというニュアンスが入ってしまいがちであり、実際の所、「正しいテクストを作るために」校訂を行っているという時代もあったようです。しかしながら、残っている様々な写本・版本・原稿は、「正しい」と言えるものが本当に存在するのか、という問題が常につきまといます。たとえば、源氏物語を書いた紫式部の直筆原稿が残っていない以上、どれが正しいかというのは推測でしかありません。でも、江戸時代に広く読まれた木版の源氏物語は、もしかしたら紫式部が書いた源氏物語からは少々離れたものかもしれませんが、しかし、一方で、江戸時代に広く読まれた(であろう)テクストであるという状況には、研究対象としても相応の意義・価値が見いだせるかもしれません。江戸時代にそれを読んだ人たちにとっては、それが源氏物語であり、それを元にして色々な思考や活動を紡いでいったのですから。

 似たようなことは、聖書でも仏典でも見いだすことはできるでしょう。そうだとすると、現在残されている写本・版本などが様々に異なりを見つけられるからといって、それらをまとめて「正しいテクスト」を見出そうとすることは、やや乱暴なことである、という風に考えることもできます。そうすると、そのようにして様々な少しずつ異なる文章を含む写本・版本群をとりまとめて一つのテクストとして提示しようという取組みを「校訂」、つまり、誤りを正す、というニュアンスを含む言葉で表現するのは、誤解を招いてしまうのではないか、という懸念が生じます。この懸念を避けるために、「学術編集版」という言葉が提唱されています。

 実際の所、紙媒体では、たとえば Nestle-Aland版ギリシャ語新訳聖書に端的に見られるように、「本文」を書いた上で、脚注に「異文」を記載するというスタイルを避けることはなかなか容易ではありません。この状況で「校訂」と言ってしまうと、「本文こそ(のみが?)正しく価値がある」という考え方を、ともすれば強化してしまいがちであるようにも思われます。しかし、デジタル媒体では、必ずしも「本文」のみを示す必要はなく、むしろ、複数の異文を含むテクスト様々なビューで表示してみる、といったことが簡便に行える可能性があり、実際に、このMOOCで紹介しているText Encoding Initiative (TEI) Guidelinesは、それを実現するための記述方法であり、欧米の文献学ではすでにそういうことが普通にできるようになっています。たとえば西洋中世写本研究のカリキュラムにも、この記述の仕方が取り入れられ、若手研究者にとっては、得手不得手はともかく、リテラシーのレベルでとりあえず学んでおく技術ということになっているようです。

 さて、少し話を戻しますと、筆者としては、基本的には「学術編集版」に賛成なのですが、しかしながら、今度は、日本語の「編集」という言葉が孕む行為としての弱い側面が、editという言葉がもつ強さを十分に反映できず、逆の意味での誤解を招かないか、という心配も一方で持っております。そのようなことから、ここでは「校訂テクスト」という、誤解を招くかもしれない言葉を、しかし、日本語の慣用としてのわかりやすさから、用いてみています。TEIをベースとした、「デジタル学術編集版」が、「校訂」という言葉の持つ危うさを実践の面からフォローしてくれるのではないか、という期待もあります。(特に、lemmaを持たないcritical apparatusという使い方がそれを示してくれていると思っています。)

 

デジタル校訂テクスト作成のためのMOOC

 前置きが長くなりましたが、そのようなことで、デジタル学術編集版(≒デジタル校訂テクスト)を作成(記述)するために、DARIAH(欧州人文学デジタル研究基盤)が昨年後半に公開したMOOCに日本語字幕をつけるという作業が、完了はしておりませんが、かなり進みましたので、お知らせする次第です。

 MOOCのサイトはこちらです。

 なお、様々に用意されている教材群や説明書きはまだ和訳されていません。が、MOOCのビデオをみていただくだけでも、TEIによるテクスト校訂の記述がどのような考え方に基づいて行われているか、というのは、テクスト校訂についてご存じの方であれば、把握していただけるのではないかと思います。私がこの仕事に取り組んでいて面白いと思うことの一つは、西洋中世のことを研究している、日本語や東洋の言語文化のことなどまるで知らない人たちが語る「デジタル校訂」についての問題意識とそれに基づく実装が、西洋中世写本のことなどまったくわからないこちらにもよくわかる、ということです。もちろん、西洋文献学の影響を受けたから、という背景もあるだろうとは思いますが、それを踏まえた上でも、やはり面白いと感じてしまうところです。MOOCのビデオの一覧はこちらで閲覧できますので、よかったらぜひ、字幕を日本語にして、お楽しみください。

 おそらく、日本語で、テクスト校訂に関するTEIガイドラインのまとまった解説はこれが初めてなのではないかと思います。その意味でも、今回の日本語字幕付きMOOCは貴重なものなのではないかと思います。(個人的には、部分的には論文で言及したりしたことはあります。あるいは、もしすでにこういうものがあるということをご存じの方がおられましたらぜひお知らせください。)

 

 それと、注意しておいていただきたいのは、ここで講義されていることが「記述方法」である、という点です。「表示」と「記述」は別なものである、という考え方が割と広く受容されているようであり、「表示」のためのソフトウェアはまた別途開発されています。有名なものに、メリーランド大学Versioning Machineがあります。が、他にも色々な表示用ソフトウェアが世界各地で開発されています。一度、TEIのガイドラインに準拠して記述しておけば、あとは様々なソフトウェアで表示したり処理したり分析したりすることができるし、さらに、いつか誰かがとても素晴らしいソフトウェアを開発してくれた時に、労せずしてそれにうまく読み込ませてさらに利活用の幅を拡げることができる(=将来に向けての前向きな投資)、ということでもあるのです。

 

日本語字幕を作成された方々

 今回の日本語字幕作成に携わった方々は、以下のとおりです。DARIAHのサイトにも掲載されていますが、頑張ってくださったみなさんに敬意を表して、字幕翻訳者一覧をこちらにも掲載させていただきます。

  • 伊集院栞 Shiori Ijuin (The University of Tokyo)
  • 幾浦裕之 Hiroyuki Ikuura (Waseda University)
  • 一色大悟 Dr. Daigo Isshiki (The University of Tokyo)
  • 小林拓実 Takumi Kobayashi (The University of Tokyo)
  • 小風尚樹 Naoki Kokaze (The University of Tokyo)
  • 李増先 Dr. Zengxian Li (Ritsumeikan University)
  • 宮崎展昌 Dr. Tensho Miyazaki (Intl. Institute for DH)
  • 永崎研宣 Dr. Kiyonori Nagasaki (Intl. Institute for DH)
  • 纓田宗紀 Soki Oda (The University of Tokyo)
  • 岡田一祐 Dr. Kazuhiro Okada (National Institute of Japanese Literature)
  • 山王綾乃 Ayano Sanno (Ochanomizu University)
  • 鈴木親彦 Chikahiko Suzuki (Center for Open Data in the Humanities)
  • 田中翔Shogo Tanaka (The University of Tokyo)
  • 王一凡 Yifan Wang (The University of Tokyo)

 

終わりに代えて

DARIAHのMOOCは、他にも様々な用意されています。自分で日本語訳して日本語でも使えるようにしたい教材を発見した人がおられましたら、先方に相談してみますのでぜひお声がけ下さい。

国内外のデジタルアーカイブの研究活用事例を知るイベント2件:

さて、またずいぶんブログの更新を怠っておりましたが、その間、色々なところで活動しておりました。特に印象に残ったのは、ヴェトナムのDHコミュニティの立ち上げのお手伝いの仕事でした。これはもう少ししたら具体的なことをアナウンスできると思います。その他、ワシントンDCで開催されたIIIFカンファレンスで発表したり、IRG国際会議で北京に行ったりしていましたが、そのご報告はまた後日ということで、今回は、表題の件です。

 

 私も研究分担者をさせていただいている科研費基盤研究(S)のプロジェクトで、フランスとドイツ/米国から、デジタル・ヒューマニティーズの著名な研究者かつ実践者をお二人お呼びして、日本でワークショップとシンポジウムを開催する運びとなりました。

 そこで、同時通訳付きのシンポジウム(+国内の最新事例のデモ19件)と、使い勝手なども含めたテキストデータベースの具体的な話をする小さなワークショップという、二つのイベントを開催することになりました。(いずれも、参加費無料ですが要参加申込みですので、上記リンク先のサイトにて、お早めにお願いいたします。

 

 海外から来て下さるお二人のお仕事については、それぞれのサイトにも書いてありますが、このお二人のプロジェクトは、ヨーロッパ全体を対象とした大型で包括的な研究向けデジタル基盤提供プロジェクトDARIAHと、専門分野に特化された精密かつ巨大なデジタルアーカイブペルセウスデジタル図書館・西洋古典フルテキストデータベース)という、対照的な、しかしそれぞれがデジタルアーカイブの研究利用という観点から世界の最先端を行っているものです。特に、ペルセウスデジタル図書館についてのご講演は、本邦初です。メールマガジン『人文情報学月報』で特集されたことがあります。ペルセウス・デジタル・ライブラリーのご紹介(1)(2)(3)このお二人にそれぞれ同時通訳付きで講演をしていただくのが、7/6のシンポジウムです。この日は、人文学のためのデジタル学術基盤を考えるという趣旨になりますので、これらに加えて、国立情報学研究所の大向先生からも、日本のデジタル学術情報基盤全般と、そこにおける人文学の位置づけについてのお話をいただきます。

 

 また、それに加えて、今回は、国内の関連する組織・プロジェクト等から19件のポスター・デモンストレーション発表をいただきます。これは、国内での人文学向けのデジタルアーカイブ研究活用の最先端の事例とその中心メンバーの方々に、参加者の皆さんと直接やりとりをしていただき、情報を得ていただくということを目指しております。近年の人文学におけるデジタルの活用に関する議論を拝見しておりますと、海外どころか、国内の事情もうまく共有されないままにあまり建設的でない議論になってしまうことも時々あるようです。今回は、そういう状況を一気に解消して、皆で地に足の着いた将来像を描いてみることができるようになることをも目指しております。デモンストレーションを提供して下さる機関については、こちらのリストをご覧下さい。ほとんどは研究活用に向けたデジタルアーカイブ、もしくはそのサービス基盤を提供しているところからの発表、ということになります。

 

 それらの機関からポスターとデモンストレーション発表を出していただき、それぞれに液晶ディスプレイを使っていただきながら40分間+αのデモンストレーション時間に説明と質疑応答をしていただくという形になる予定です。残念ながらこの19件だけでは国内の先進事例のすべてを網羅できているわけではないのですが、しかし、これだけのプロジェクトが一堂に会し、情報提供をしてくださる機会は非常に希ですので、我国の人文学におけるデジタル研究基盤、あるいは、デジタル時代の人文学の将来像にご関心をお持ちのみなさま方におかれましては、ぜひこの機会をご活用いただきたく存じております。

 

 もう一つのイベントは、前日(7/5)に開催される、上記のワークショップです。こちらは同時通訳はなく、英語での開催となりますが、ペルセウスデジタル図書館と、SAT大蔵経テキストDBという、二つのテキストデータベースを採り上げて、より具体的なテクストDBについての議論が行われる予定です。とりわけ、西洋古典のテクスト研究におけるデジタル技術活用の最新動向についてご関心がおありの方は、こちらもぜひご参加下さい。

 

 ということで、参加されるみなさまと、うまく色々な有益な情報を共有できればと思っております。そして、参加できなかった方々とも、事後に、なんらかの形で情報を共有できればと思っております。すべきことが多すぎて、みんなで大変な時期にさしかかっておりますが、なんとか乗り切っていきましょう。

 

IIIFの活用をもう少し踏み込んで:SAT2018の事例より

ここのところ、合間を見つけて、ちょこちょこと作っていたものが、ようやく日の目をみてもよさそうなところまできたのでご紹介です。再びIIIFの話です。

 

SAT大蔵経テキストデータベース2018(SAT2018) と IIIF Manifests for Buddhist Studies (IIIF-BS)をうまく組み合わせてより利便性を高めたいと思っておりまして、結果として、以下のようなものができました。たとえば、『妙法蓮華経』の例を見て頂くと、右下にダイアログが開いて、以下のように、各地から公開されている経典画像の断片が、全体のどの部分にあたるか、というのが比較的正確に表示されるようになりました。

f:id:digitalnagasaki:20180426033124p:plain

これは大正新集大藏經の行番号をIIIF-BSで各IIIFマニフェストに割り当てておいて、その行番号をみて該当する箇所に該当するIIIFマニフェストを表示しています。横方向が経典の全体で、そのうちでそれぞれのIIIFマニフェストが対応する部分に関して、バーとして表示されるようにしています。このバーをクリックすると、IIIF対応画像に関しては、上のようにMiradorに表示されます。なお、この図の縦方向は、今のところ、公開期間ごとに分けているというだけでそれ以上の意味はありませんのでご注意ください。これを年代別にできるといいなあと思っているのですが、そのためには各画像の年代を調べて書いていかないといけないので、それはちょっと骨が折れそうです。(でもいつかできるようにしたいです)

 この表は、ホイール操作でズームすることもできるので、たとえば以下のようにして拡大してみて、各資料がどこまで残っているかを詳しく比較しながら確認することもできます。

f:id:digitalnagasaki:20180426033953p:plain

 

それから、「高麗蔵」「宮内庁宋版一切經」などは、まだIIIF対応ではないので、単に新しいウインドウ/タブがポップアップするだけ、という風になっています。

お試ししてみたい方は、以下にいくつかリンクを用意しておきますので、それぞれクリックしてみて「巻タイトル」の隣にある「画像一覧」というボタンをクリックしてみて下さい。そうすると、上記のような画像一覧の表が表示されるようになっています。

 

妙法蓮華経

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T0262.html

『金光明最勝王経』

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T0665.html

f:id:digitalnagasaki:20180426034706p:plain

 

今夜はもう寝なければならないので、とりいそぎ、速報ということでここまでとさせてください。

 

 

 

 

 

 

 

IIIF対応で画像を公開することの意義を改めて:各図書館等の事例より

前回の記事に引き続き、もう少し具体的に、各地の図書館等のIIIF画像とSAT2018との連携の状況についてのご紹介を通じて、IIIF対応で画像を公開することの意義を改めてみていきたいと思います。

 

1.京都大学東京大学の例

たとえば、以下の画像群は、左からみていくと、東京大学総合図書館、SAT研究会、京都大学図書館から公開されている画像です。東京大学総合図書館とSAT研究会の画像は仏教学のプロジェクトとしてデジタル化・公開されているので、このように使われているのはある意味これまでの流れの続きと言えると思います。

 一方、ここでまず注目しておきたいのは、京都大学図書館の画像です。京都大学図書館に関しては、おそらく、仏教学のプロジェクトの一環として公開したわけではなくて、自らのコレクションを学術利用全般のために公開するという文脈で公開したのだと想像しております。しかし、IIIF対応で公開したことによって、公開した側としてはそれ以上の手間暇はとくにかけなくとも、このようにして専門家コミュニティが利用するサイトにかなり便利な形で組み込まれて、教育・研究に活用される環境が作られていくことになります。

 

f:id:digitalnagasaki:20180409032637j:plain

ちなみに、このビューを得るには、以下のURLにアクセスして、巻17のところにあるIIIFアイコンを二つクリックして、ついでに大正新脩大藏経の巻17の始めの行のIIIFアイコンもクリックすると、大体完了です。

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T1563_.29.0854b08.html

全画面表示する前は以下のような感じになりますが、全画面表示すると、上のように、大きく表示されて、読みやすくなります。

f:id:digitalnagasaki:20180408162835j:plain

 

 

2.ハーバード大学京都大学東京大学の例

あるいは、同様に、以下の例では、大慧普覺禪師語録巻二十五のうち、ハーバード大学京都大学東京大学、SAT研究会から公開されているものを並べてみています。

f:id:digitalnagasaki:20180408175338j:plain

これは、以下のURLから、一つ前の例と同様に、巻二十五のところにあるIIIFアイコンをクリックしていただくと表示できるようになっています。

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T1998A.47.0916b11.html

 

3.九州大学・フランス国立図書館の例

以下の例は、金光明最勝王経という経典の第三巻の画像です。九州大学図書館では、この経典のかなりきれいな全巻揃いの写本を公開している一方で、フランス国立図書館で公開している敦煌写本画像のなかに同じ箇所のものがあったので、これも並べられるようにIIIFアイコンを用意しております。以下のURLから、上述のような仕方で閲覧できます。

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T0665_.16.0413c10.html

f:id:digitalnagasaki:20180409034745p:plain

 

4.島根大学東京大学の例

島根大学図書館でも最近IIIF対応での画像公開が始まりましたが、そこに少し仏典画像が含まれていました。そこの『大智度論』の写本も、このようにして既存の他の画像と並べることができるのですが、この場合、右の二つの例とは区切り方が異なっており、大正新脩大藏経の脚注によれば、石山寺に写本で伝えられるものと一致していることから、そちらの系統の写本であることが想像されます。こちらは、頁を開いたあと、このビューにたどり着くのに少々手間がかかるので、URLは省略します。そういうパターンでもうまくアクセスできるようにすることを、次の開発目標にしています。

f:id:digitalnagasaki:20180409041408p:plain

 

5.バイエルン州立図書館・東京大学の例

バイエルン州立図書館は、IIIFに初期段階から熱心に関わっている機関の一つですが、そこでも、最近、東アジア資料のIIIF画像公開を始めたようです。日本の資料も色々ありますので、それはそれでどなたか何とかしてくださるとありがたいと思っておりますが、仏典関連資料も色々ありましたので、それもリンクしてみております。

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T0262_.09.0027b13.html

f:id:digitalnagasaki:20180409042246p:plain

 

6. バチカン図書館の例

バチカン図書館では、NTTデータが技術面を担当しつつ、膨大なコレクションをIIIF対応で公開しつつありますが、そのなかに一つ、金泥写経があります。さすがにNTTデータが担当しているだけあってか、頁めくり方向を右⇒左にきちんと対応させていました。IIIFのルールとしてはきちんと用意されているのですが、ハーバードやフランス国立図書館等、欧米の機関だとなかなか対応できていないなかで、ありがたいことです。

f:id:digitalnagasaki:20180409043938p:plain

 

7.国文学研究資料館九州大学の例

国文学研究資料館は、現在、日本で最も多くのIIIF対応画像を公開している機関です。ここは、日本の古典籍を多く収集しているため、仏典関連でも、日本で広く読まれたものが多く公開されているのかもしれません。ここでは「仏説善悪因果経」が複数公開されていましたので、並べて見ています。読み下しにしてくずし字にしたものが一つ公開されていましたが、それと同じ版とおぼしきものは九州大学からも公開されていますので、それもならべてみています。それ以外にも、いくつか、国文学研究資料館から公開されていましたので、とりあえず見つけたものをリストしてみています。

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T2881.html

f:id:digitalnagasaki:20180409045446p:plain

 

8.終わりに

 IIIFを通じて世界の文化機関が目指したのは、このようにして自らのコレクションを公開した際に、利用者が各自の文脈に応じてそれらを再編成し、効率的効果的に活用できるようにする環境を提供する、ということでした。ここまでみてきたように、ほとんどの機関は、仏教学のプロジェクトとして仏典画像を公開したのではなく、自らのコレクションを公開した中に、たまたま仏教学に役立つ資料画像が含まれていた、ということであるように思えます。それが、IIIF対応で公開されていることによって、このように、第三者が資料を集めて、特定の利用者コミュニティの利用方法に特化する形でサービス提供できるようになりました。この事例では、SAT2018から連携したことによって、各公開機関の方で電子テクストを用意していなくとも、SAT2018で全文検索した結果から画像にたどりつくルートが用意されたという形になっています。

 さらに、ここでは、単にSAT2018という単独のデジタルアーカイブで活用できるようにするだけでなく、以下のサイトにおいて、共同でIIIF対応画像を収集し、共同で目録情報を付与し、Web APIで利用できるようにもしています。

http://bauddha.dhii.jp/SAT/iiifmani/show.php

このIIIF Manifests for Buddhist Stufiesというサイトを介することで、同様のサービスを他のデジタルアーカイブにも追加することができるのです。たとえば、文学研究や歴史研究、あるいは漢字研究のためのサイトに特定のいくつかの仏典の画像が有用であるならば、その仏典に関するIIIF画像だけを、以下のようなURLで動的に入手することができます。(以下の例では、妙法蓮華経の巻第六の画像のIIIF Manifest URIのリストをApache Solrの検索結果の形で入手できます。)

http://bauddha.dhii.jp/SAT/iiifmani/show.php?m=getByCatNum&cnum=T0262&scrnm=s6

動的に、というのは、たとえば、上記のサイトに同じ経典の同じ巻の情報を誰かが追加したら、それを利用者はリアルタイムに入手・利用できるようになる、ということです。

 このように、単に、世界中のデジタルコンテンツに横串を指して利用者に便利なサービスを様々に提供できるようになるだけでなく、様々な便利なサービスを生み出すためのサービスを作りだしてそのような動きを促進することもできる、というのがIIIFが持つ大きな可能性であり、面白さでもあると思います。

 デジタル画像を公開するにあたり、少しでもうまく・幅広く活用されることを目指すなら、このようにして活用可能性を大幅に広げる機能を持ち、すでに世界的にも広く活用されるようになっているIIIFに対応しておくことは、目的達成のためのとても有力な選択肢であるように思われます。ここまで読まれた方で、まだ対応しておられない機関の方は、ぜひ、これを機に採用をご検討いただければと思っております。なお、すでに国内でもIIIFに対応できる企業は知る限りでも4社以上ありますので、外部発注をするにしてもそれほど問題なく導入できることと思いますし、内製が可能な組織であれば、容易に導入できるフリーソフトが様々に用意されていますので、ぜひ挑戦してみてください。

 さらに、画像だけでなく、音声・動画や3D等についても、徐々にIIIF対応が広がりつつあります。まだ事例はそれほど多くないですが、少なくとも画像と同様のことができるようになっていく見通しですので、そのようなコンテンツに関しても、採用に向けて検討してみていただくとよいかもしれません。

IIIF, Mirador, TEI, Word2vecを活用した仏教学研究教育サイト「SAT2018」

1.はじめに

2ヶ月ぶりのブログ更新です。この間、何をしていたのかというと、ひたすら時間をみつけて表題のサイト、SAT2018(SAT大蔵経テキストデータベース2018年版)を作っておりました。デジタルアーカイブの研究・教育利用のソリューションの一例とお考えいただけるとありがたく思います。今回の技術面でのキーワードはIIIF, Mirador, TEI, Word2vecで、隠れたキーワードはWebコラボレーションです。

f:id:digitalnagasaki:20180407234932p:plain

 

1994年に始まったSATプロジェクトでは、比較的初期の段階から、入力が済んだ順にテキストデータを公開していましたが、2008年に最初の全文検索Webサイトを公開した時は、大正新脩大藏経約1億字の全文検索や辞書検索、論文検索機能などが中心であり、2012年/2015年の改定では仏典画像の自前公開やリンク、パラレルコーパスなどが新規追加されました。

 今回、2018年版は、ネタが多すぎるので、ここでは一つずつ分けてご紹介していく予定です。まずここでは、比較的、適用性が幅広そうなIIIF/Miradorの話からいきたいと思います。

 

2.IIIF/Miradorの全面導入

今回のサイトでは、IIIF/Miradorを全面的に取り込んでいます。取り込みにあたっては、2ヶ月前のブログでご紹介した、IIIF Manifest for Buddhist studies と連携するとともに、基本的には、ここでのMiradorの使い方を踏襲しています。そこで、SAT2018では、IIIF画像の基本的な使い方として、

  • IIIFアイコンをクリックすると画面右側のMiradorのウインドウが新たに分割されてその画像のその頁が表示される。
  • IIIFアイコンをドラッグすると他のIIIF対応ビューワに表示される。

という風にしています。具体的にできるようにしたのは、「各文献を巻の単位で閲覧・対照できるように」ということです。これを全文検索と組み合わせることで、「全文検索をしてから巻単位であたりをつけて、気になる箇所は複数の版本を対照する」ことができるようになっています。たとえば、以下の例は、『妙法蓮華経』の「如來神力品第二十一」という章の版面を対照しているところです。ここでは、SAT研究会が提供する大正新脩大藏経の版面画像、フランス国立図書館が提供する敦煌写本・ペリオコレクションから2つ、東京大学総合図書館の万暦版大藏經、を並べて見ています。

 

f:id:digitalnagasaki:20180408002605p:plain

 

ここで、脚注の6番に着目してみると、一番左の『大正新脩大藏経』では「踊」としているものの、「三」(つまり、増上寺所蔵の宋版・元版・明版の三者)及び、「宮」(つまり、宮内庁書陵部の宋版一切經)では「涌」となっている、ということが書いてあります。そこで、とりあえずIIIFで参照できる資料を見てみますと、真ん中の2つ、遅くとも11世紀以前であることが想定される敦煌写本では「踊」となっており、一方、右側の、明代末~清代に刊行された万暦版大藏經(≒明版、ただし、大正新脩大藏経の校訂時に参照した刷りとは異なるので要注意)では「涌」となっています。

 

f:id:digitalnagasaki:20180408003223p:plain

 

IIIFではここまでですが、さらに、SAT218では、IIIF非対応画像でもいくつか巻単位でのリンクを張って見やすいようにしておりますので、ついでに、この箇所に関していくつか見てみましょう。

まず、13世紀に刊行された高麗版大藏經は、『大正新脩大藏経』の底本となっているものですが、その同じ版の異なる刷りのものをソウルの高麗大藏經研究所が大部分の画像とフルテクストをWebで公開してくれていますので、それを見てみますと、大正新脩大藏経が示すとおり「踊」となっています。(ちなみに、SAT研究会は、この高麗大蔵経研究所と包括連携協定を結び、対照目録データの共有等を行っています。)

f:id:digitalnagasaki:20180408003645p:plain

 

また、「宮」として脚注で参照されている宋版一切經は、慶応大学斯道文庫のWebサイトから公開されていて、SAT2018から巻単位でリンクされていますので、ちょっと見てみますと、これは「涌」になっていますね。

f:id:digitalnagasaki:20180408004038p:plain

 

さらに、奈良時代の写本というのがやはり宮内庁書陵部に伝えられていて、これも慶応大学斯道文庫のWebサイトから公開されていて、そちらにも巻単位でSAT2018からリンクされていますので、それを見てみますと「踊」になっているようです。

f:id:digitalnagasaki:20180408004924p:plain

 

こうしてみてくると、比較的古い写本と高麗版大藏經では「踊」となっているものが、木版の系統では、確認できる限りでは大正新脩大藏経が示すとおり「涌」になっているようです。

色々気になってきたので、ちょっと脱線して大正新脩大藏経を全文検索をしてみますと、

従地涌出:単語出現数 170

従地踊出:単語出現数 141

となっており、なかなか甲乙つけがたいものがあります。

ということで、こういったところから、仏典の伝承の系統を詳しく検討していくことができます。内容を検討する上でも重要になってくる場合がありますので、常用はしないとしても、必要な時にこのような機能が使えるようになっていることは大変重要です。以前は、一つ一つ閲覧許可を得たり、重くて高価なシリーズ本や影印本を購入したりしなければならず、一通り全部横に並べて検討してみるなどという贅沢なことは到底できなかったのですが、このようにしてWebで画像が閲覧できるようになったことで、この種の研究は大きく進展するのではないかと思います。また、ここでは、このようにして資料をIIIFで確認できると、ウインドウを切り替えたりせずにじーっと比較しながら読んでいくことができますので、やはり大変便利です。また、以下のように、

f:id:digitalnagasaki:20180408010621p:plain

 

「典籍」の「巻」の単位でリンクできるようにしておりますので、見たい箇所に比較的たどり着きやすくなっていると思います。(が、これはまだ改善の余地があり、抜本的な新ソリューションを検討中です)

 

さらに、IIIFの良いところは、リンクの仕組みが共通化されていますので、上述の IIIF Manifest for Buddhist studiesのサイトで集約した情報を、SAT2018に取り込むことも、容易に、世界中の対応画像に対して、一つのプログラムでできるようになっています。 IIIF Manifest for Buddhist studiesでは、世界中のIIIF対応仏典画像(の一部?)を集約しており、IIIF Manifest URIをリストアップするとともに、IIIF Manifestに記載されたテクストを全文検索できるようにしております。さらに、仏典の場合、特に中国語訳・中国語仏典の場合、大正新脩大藏経番号が世界中で広く使われており、論文等で参照する際にもそのテキスト番号や巻、頁番号などが記載されるようになっています。SAT大蔵経テキストデータベースも、その番号をずっと使ってきておりますので、世界中からリリースされつつあるIIIF Manifest URIに対しても、この大正新脩大藏経番号を付与できるようにしています。たとえば以下の図のように、これをWebコラボレーションでできるようにしており、少しずつ作業を進めております。

 

f:id:digitalnagasaki:20180408011507p:plain

ここに大正新脩大藏経のテキスト番号と巻番号を登録すれば、その番号で該当するIIIF Manifest URIを取り出せるようにしています。取り出しのためのURLはたとえば以下のような感じです。これは『妙法蓮華経』の巻第六のIIIF Manifest URIを取り出すためのURIです。

http://bauddha.dhii.jp/SAT/iiifmani/show.php?m=getByCatNum&cnum=T0262&scrnm=s6

 SAT2018からは、毎回このサイトに問い合わせを行ってデータをとってきますので、このサイトでのリンク情報の追加更新はダイレクトにSAT2018の利用画面に反映されることになります。特にアクセス制限は設けておりませんので、そのうち、他の仏典データベースでも、このサイトのデータを使ってIIIF仏典画像コンテンツを利用するようになるかもしれません。(海外の一部のプロジェクトとはそういう話をしております。)

3.国立国会図書館東京大学総合図書館所蔵『慧琳撰 一切經音義』のIIIF化・オープンデータ化・SAT2018連携

それから、もう一つのIIIFの活用例として挙げておきたいのは、『慧琳撰 一切經音義』です。この本は、唐の時代に書かれた、仏典に含まれる単語や文字の辞書なのですが、伝承の過程がやや特殊で、通常の中国木版大藏經の系譜から外れてしまっており、結果として、唐の時代の特徴を比較的損わずに現在に伝わっている可能性があるとみる向きがあります。この辞書は、13世紀に高麗で高麗版大藏經の一部として刊行され、木版大藏經の系譜の中ではそこにしか見つかっていないのですが、その後、江戸時代に忍澂上人が研究して校訂のようなことを行った本を木版で刊行し、さらに、明治時代には、その成果を含めた初の金属活字大藏經、大日本校訂大藏經(縮刷蔵)の爲部の後ろの方に含まれる形で刊行されます。それらを受けて、大正新脩大藏経にも含まれることになるのですが、とにかく、古い時代の辞書・字書を様々に引用しており、資料価値が高い一方で、いわゆる外字が極めて多く、SAT研究会が取り組む「仏典をすべてUnicode化することで普通に扱えるようにする」という目標にとって大きなハードルになっています。すでにSAT研究会では、これらのうち、デジタル画像化の許可が得られたものをデジタル画像化し、各文字を必要に応じて参照できる仕組みを構築し、この4年ほどはそれを用いて活動してきました。

SAT2018では、IIIFの仕組みを用いることで、それらの画像のうち、公開可能なものについて、容易に対比できるようにしました。ここでは、文字の形を対比できることが重要になりますので、拡大縮小を容易にできるIIIF/Miradorのメリットはとても大きいということになります。たとえば以下の例では、大正新脩大藏経(左から2番目)の脚注4に関して、一番左が大日本校訂大藏經、一番右が江戸時代の忍澂上人による刊本(白蓮社本)、右から2番目が、高麗版大藏經、ということになります。この場合、13世紀に刊行された高麗版大藏經に対して、忍澂上人が17世紀にこの文字に対して修正を行ったということがうかがえる一方、明治時代の大日本校訂大藏經では(活字が小さすぎて)つぶれてしまって読めない、という状況になっています。大正新脩大藏経では、この箇所に関しては比較的正確にそのような状況を記載していることがわかります。

 

f:id:digitalnagasaki:20180408015831p:plain

この一切經音義に関しては、以下のURLから閲覧できるようになっております。

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T2128.html

 

3.1. Unicodeで使えるようにするためのIRG提案文書の動的閲覧

また、特にこの一切經音義を対象として、Unicodeで使えるようにするために、文字提案文書を作成しております。それも、SAT研究会の活動報告の一環として、そして、なるべく多くの人の目に触れて検証を行うべく、2015年2017年に符号化提案したリストを、証拠画像とともに掲載しました。SAT2018の画面右上の「参考資料」というリンクから表示することもできます。ここでも、iiifアイコンをクリックすると、該当する文字が含まれる頁がMirador上に表示されるようになっています。(ただし、残念ながら、すべての証拠画像で実現できたわけではありません。)たとえば、以下のような感じになります。すでに、この文書を議論するための組織、IRGのWebサイトではPDFで公開されているものですが、ここではそれを、動的に、全体の文脈のなかで閲覧・確認できるようにしております。

f:id:digitalnagasaki:20180408023523p:plain

 

 

3.2. 一切經音義 版本画像の出自とライセンス

なお、ここで利用している一切經音義の画像は、いずれもSAT研究会の画像データベースから配信しておりますが、白蓮社本と大日本校訂大藏經に関しては、SAT研究会と東京大学附属図書館との合意により、東京大学総合図書館所蔵の鷗外文庫に含まれるものをデジタル撮影・公開しており、再配布についても許諾されています。(余談ですが、以下のように、鷗外の蔵書だったことを示す印(鷗外自身の蔵書印ではないようです:青田寿美先生にご教示いただきました)も見えます)

f:id:digitalnagasaki:20180408033752p:plain

そこで、先行して2015年4月にオープンデータの貴重資料画像として試験公開され、その後正式に公開された東京大学大学所蔵万暦版大藏經と同様に、周辺情報も含める形でCC BYライセンスの下で公開するに至っております。

 一方、高麗版大藏經の一切經音義画像については、国立国会図書館デジタルコレクション(以下、国会デジコレ)にて画像公開されている京城帝国大学版という、刷りの新しいものを利用しています。国立国会図書館デジタルコレクションは、著作権保護期間が終了しているデジタル画像に関しては、再利用に何らの制限を設けていません。これまで筆者は、国会デジコレの画像をIIIFで公開する際には、国デコImage Wallに見られるように、NDL labの仮想サーバを用いていたのですが、今回は特に高速・大量アクセスが要求される場合があるため、SAT研究会の画像サーバにて公開させていただくことにしました。こちらは、ライセンスとしてはCC0をつけております。

 なお、ご存じの方も多いと思いますが、IIIFでは、ライセンス情報の書かれたURLをIIIF Manifestに記載することを求めており、ほとんどのIIIF対応ビューワでは、それを「情報ボタン」から表示できるようにしています。たとえば、Miradorの場合には以下のようになっています。

f:id:digitalnagasaki:20180408022431p:plain

4.SAT大正蔵図像DBとのシームレスな連携

SAT2018では、SAT大正蔵図像DBのIIIF画像検索・表示機能もマージしております。「図像検索」というボタンをクリックするとSAT大正蔵図像DBの図像を検索して表示します。以下は、よく用いる例ですが「炎髪」で検索してみています。これも2年前にIIIF対応でアノテーションとともに公開したものですが、2年前に公開したものでも、現在のシステムに、何の作り込みもせずに、何の追加料金も発生させずに、以下のように、ただ該当URLをビューワに渡すだけで、アノテーションも込みで普通に表示できてしまいます。IIIF以前は、他のシステムに組み込むどころか、単に、新規システムに移行するだけでも大変な手間と労力(あるいはそれにかかる費用や手続き)が必要でしたが、IIIFの登場により、事情は大きく変わりました。

 

f:id:digitalnagasaki:20180408012907p:plain

 

5.IIIF非対応の仏典画像群

ここまで、主にIIIF対応の仏典画像との連携についてみてきました。SAT研究会では、Web上の仏典画像についてはIIIF登場以前からリサーチを続けてきており、SAT2015ではそれらを連携して閲覧できるようにしていました。以前からある仏典画像の多くは、未だIIIF対応しておらず、当面は、そういったものについても引き続きリサーチとリンクを続けていく予定です。たとえば、転読で有名な(参考:興福寺での転読会の動画)大般若波羅蜜多經は、600巻ありますので、古い資料で全巻そろうのはなかなか難しいですが、各地に残された巻が少しずつデジタル化・公開されるようになってきており、これはこれでとてもありがたいことです。

f:id:digitalnagasaki:20180408024929p:plain

 

しかし一方で、IIIFに対応することで、利便性がとても高まりますので、すでに世界中でIIIF対応を呼びかけてきているところですが、今後も引き続き、それを続けていくつもりでおります。みなさまにおかれましても、未対応の方はぜひご対応を、対応済みの方は、IIIFのよりよい活用を目指していただけますと幸いです。

 

6. 終わりに

とりあえず今回は、IIIFの活用に関するさわりの説明で終わってしまいました。実際のところ、より緊密にテキストとリンクすることで、IIIFの活用可能性はさらに高まりますので、そのような実験も種々にしているところで、中にはもうじき公開できる話もあると思います。が、それはともかくとして、今後しばらく、SAT2018が提供する色々な機能について解説していきたいと思います。デジタルアーカイブの研究教育利用という観点でみなさまのお役に立てばと思っております。

 

7.おまけ(技術的なことに興味がある人向け)

今回、Miradorの画面をどんどん分割してManifest URIを読みこんで画像を表示していくという機能を提供しております。これは、私が書いたJavascriptのコードを見ていただけばわかることではあるのですが、いちいちあの長いものをみていくのは大変かもしれませんので、ポイントだけ少しご紹介しておきます。

まず、Miradorのインスタンスを作ります。

var miradorInstance = Mirador({..ここにMiradorの設定を書く...});

この時点で、一つManifestを読み込んでおくようにした方が後がやりやすいです。そうすると、

miradorInstance.viewer.workspace.slots[0].window.id

として、一つ目のウインドウを参照できるようになります。このウインドウに対して、何か操作をしたり、あるいは、新たにウインドウを追加したら、そのウインドウに対しても同様のIDで操作できるようになります。

ウインドウに対する操作は、

miradorInstance.eventEmitter.publish('操作内容', 'Window ID');

という風にします。ですので、たとえば、以下のようにすると、ID指定したMiradorのウインドウ(ワークスペースと呼んでいることもあります)が閉じます。

miradorInstance.eventEmitter.publish('REMOVE_WINDOW', '上記のID');

この操作内容には、他に、

SPLIT_RIGHT
ADD_WINDOW
ADD_MANIFEST_FROM_URL

等、いくつか用意されています。特に、新たにManifestを読み込ませるときは、

miradorInstance.eventEmitter.publish('ADD_MANIFEST_FROM_URL', 'Manifest URI');

をした後に、windowConfig設定とともにADD_WINDOWすることで、目当ての頁を表示させたり、目当ての箇所を拡大表示させたりしますが(そこら辺の設定はwindowConfigで設定してしまう)、普通に処理を並べると、Manifest ファイルを読み込み終わる前に次の操作に入ってしまって、読み込みが一度ではうまくいかないので、たとえばjQueryであれば $.when~.then のような、Manifestファイルを読み込み終わってからADD_WINDOWするような手法をとるとよいと思います。

$.when(
miradorInstance.eventEmitter.publish('ADD_MANIFEST_FROM_URL', 'Manifest URI'),
$.ajax({url:'Manifest URI'})
).then(function(){
var windowConfig = {
loadedManifest: kMani,
canvasID: kCvsId,
sidePanelVisible: false,
"windowOptions": {
"osdBounds": {"x": linep,"y": parv,"width": 0.08,"height": 0.5}
},
slotAddress: miradorInstance.viewer.workspace.slots[num].layoutAddress
};
miradorInstance.eventEmitter.publish('ADD_WINDOW', windowConfig);
});

ここら辺のところは、すでにご存じの方々も多いと思いますが、もし未チェックでしたら、これを機に、ぜひ、IIIF関連開発の選択肢に入れて置いていただけますと幸いです。

 あるいは、(むしろここが重要なのですが)、もっと良い書き方があったらぜひ教えてください。

ということで、今後ともよろしくお願いいたします。

 

 

 

 

仏典研究のためのIIIFコンテンツ収集+閲覧サイトを作ってみました

今回は、仏典研究のためのIIIFコンテンツを収集して閲覧できるサイト、というのを作ってみました。とりあえず1分くらいお時間がおありの方は以下の動画GIFをご覧になってみてください。

 

動画

 

要するに、世界各地のデジタルリポジトリ・デジタルコレクションに少しずつ含まれている仏典関連のIIIF manifestを集めて、IIIF manifest中の文字列で検索できるようにして、さらに、Miradorでクリックするだけで簡単に画像を並べられるようにしたものです。

 

技術的には特に難しいことはしておらず、最近世間で広まっていてフリーソフトで実現できる一般的な技術を組み合わせただけでこれくらいのことはできます。もう少し具体的には、IIIF manifestをサイトに登録すると、IIIF manifestのJSON形式をたどって文字列が入っているはずの箇所を取り出してから、それらの文字列を一つにまとめて、フリーの全文検索ソフトApache Solrに登録するようになっています。今までのこの種のサイトとひと味違うのは、すでに世界中の色々な機関から大量に公開されているIIIF manifestのURIを登録すれば、あとは全部自動的にやってくれてしまうという点です。

 Apache Solrという全文検索ソフトはよくできたフリーソフトで、歴史もあり、かゆいところにもかなり手が届く設計になっていながら、最近流行のJSONにもきちんと対応しているということで、とても便利なものです。以前からちょこちょこ試していたソフトの一つだったのですが、最近改めてこの本を買って、チュートリアル的に一通り操作方法をきちんと確認してから、こちらを見つつ色々作ってみているところです。

 今回は、アイコンをクリックするだけでMiradorで画像を開いて、さらに、もう一度アイコンをクリックするとMiradorのワークスペースを一つ増やしてそこに画像を並べるようにしてみています。これは、Miradorに元々用意されている機能を使ったもので、以下のようなコードを基本にしています。

<span class="hoge" data-n="manifest URI">Miradorのアイコン</span>

というエレメントがあったとしまして、これをクリックした時に、すでにMiradorインスタンスが一つ開いている場合に、以下のようなスクリプトが動くようになっています。(Miradorインスタンスがない状態から開くのは簡単すぎるので特に書きません)

 

var mUri = $(this).attr('data-n');

//クリックしたエレメントの属性値に書いてあるManifest URIを拾って

var slot = mirador.viewer.workspace.slots[0];

//一番左のワークスペースの番号を取得して
var num = mirador.viewer.workspace.slots.length;

//現在のワークスペースの数を数えて
mirador.eventEmitter.publish('SPLIT_RIGHT', slot);

//とりあえず一番左のワークスペースの隣に一つワークスペースを追加します

$.when(
   mirador.eventEmitter.publish('ADD_MANIFEST_FROM_URL', mUri),

// Manifest のURLを渡してManifestの内容をMiradorに読み込ませて
   $.ajax({url:mUri})

//Manifestの読み込みが終了してから(これをもっとうまく書きたいのですが…)・・・
).then(function(){

//次の手順に入りまして…
   var windowConfig = {

// ワークスペースに表示させる情報を設定します。ここはMiradorの設定と同じことです
     loadedManifest: mUri,
     slotAddress: mirador.viewer.workspace.slots[num].layoutAddress

//新しく追加されたスロットのアドレスを取得して設定しておきます。
};
mirador.eventEmitter.publish('ADD_WINDOW', windowConfig);

//あとは、新しく追加されたスロットに、設定したマニフェストの資料を表示します

})

 

これまで、アイコンをドラッグ&ドロップをしないと複数並べることが難しいということが、ユーザ側には結構ネックになることがあって、なんとかしたいと思ってきていたのですが、今回のシステムではちょうど良い案配になるのではないかと思って試しに付けてみたのでした。

 

このような感じで、割と簡単に、自分の好きなテーマのWebコンテンツを対象とした検索サイトのようなものを作ることができるようになります、というのがIIIFの面白さの一つと言いましょうか、とても重要な根幹部分です。他の分野でもこういう感じのものを作ってみていただくと面白いのではないかと思います。ぜひみなさまも挑戦してみてください。 また、それにあたって、このシステムを使ってみたいという人がおられましたらお声がけください。即応は難しいかもしれませんが、ぼちぼち対応させていただきます。

 

ということで、このシステムが、みなさまのデジタルアーカイブ/デジタル・ヒューマニティーズを考えていただく上でのヒントの一つにでもなりましたら幸いです。

 

※このサイトを作るにあたっては、神崎正英さんに一つご教示をいただきましたので感謝とともに記しておきます。