2016-10-23

国文研館蔵和古書画像400万コマ近くがオープンデータに！

IIIF IIIF応用

　先日、国文学研究資料館（以下、国文研）の館蔵和古書画像がCC BY-SAへとライセンス変更されたことは記憶に新しいところです。筆者としては早速ダウンロードして色々活用できるように…と思って少し試してみたらなかなか大変でした。結果として、19451書誌分の古典籍画像をダウンロードすることができたのですが、書誌情報はオープンデータになっていないので、内容がわかる人でないとなかなか活用は難しいのではないかと思います。この点、昨年「国文研データセット」として公開されたものは書誌情報やタグ、一部の全文テクストなど色々おまけがついていたので楽しみやすいものでした。筆者としても、色々な工夫をさせていただきました。

　しかし、やはり、せっかくオープンデータとして公開されたのですから、これはなるべくみんなで活用できるようにした方がよいと思いました。このところ「デジタルアーカイブ」についての議論が盛り上がっていることもあり、古典籍好きな人たちがデジタルアーカイブについての活用例を色々と出せるようにすることは、古典籍に関わる研究者だけでなく全体にとってもいいことなのではないかということもあり、とりあえず皆が共有しやすい形にしようかと思いました。

　とりあえず、このブログで何度もご紹介しているIIIFに対応する形で公開するのは活用の幅がかなり広がりますので、まずはIIIF対応をさせました。このIIIF Manifestのリストはタブ区切りテクストで公開しております。この件は、さっそく笠間書院が採り上げてくださったので、ありがたいことです。なお、なんでJSONじゃないの？という突っ込みはご容赦ください。JSONであるべきだと思う人はJSONにして再配布してください。

　さて次に、画像のダウンロードです。国文研のデータベースはあんまりダウンロードしやすくないので、ダウンロードしやすいようにしてみました。ポイントは、

画像のディレクトリ／ファイル番号と書誌情報ID（？）との対応をわかりやすく
画像のファイル名を固定長で
1書誌ごとに全画像を１つの頁にまとめる

という３点です。先にテクニカルな話をしておくと、ファイル／ディレクトリの構造はそのままにして、シンボリックリンクをはることで上記のことを実現しています。多分、こうしておくことで、元のリポジトリ上での画像の状況に小変更が生じた時にもそれなりに機械的に対応できると思います。

では、上記の3点をかいつまんで説明していきますと、

「1. 画像のディレクトリ／ファイル番号と書誌情報ID（？）との対応をわかりやすく」というのは、書いているとおりです。おそらく、書誌情報やモノとしての本や周辺物の構造にあわせてディレクトリやファイル番号をつけていった上で、データベース上で順番を管理して表示していたのだと思うので、Webインターフェイスから使うことだけを考えるならこれでよいと思うのですが、画像をダウンロードして使うことを考えた場合、画像にアクセスした時にそのオリジナルのディレクトリ／ファイル番号（ファイル名）が見えてしまっていて、結果として書誌情報との関係や画像の順番がダウンロード後によくわからない、という状態になってしまうようでした。たとえば、何らかの事情で番号が飛んでいる場合、複数の本で構成される一つの本（書誌）のディレクトリの分け方に色々なパターンがある、あるいは、帙の写真があって本文が始まるけど画像番号は帙の写真の方が大きい、など、です。これだと、ダウンロードした時に、Webで見せている順番（＝多分国文研でこうあるべきと思った順番）では使えなさそうな感じでした。これは、これまでの国文研のデータベースがダウンロードでの利用を前提としていないのである意味当然のことであるとも言えるのですが、せっかくCC BY-SAでの公開となったのに、ダウンロードした際にうまく使えないとちょっと困るかもしれないので、とりあえず、各書誌情報ID（？）ごとに、画像をぶらさげる形にしてみました。

「2.画像のファイル名を固定長で」というのも、書いているとおりです。特にパソコンに1冊分をダウンロードしたり、複数の本を同じフォルダに保存してみたりした場合、読む順番で画像が並んでいたり、きちんと連番になっていたり、固定長になっていたりすることは、画像を簡単に順番に並べることができるという点で、ライトなパソコンユーザには割と重要なことかと思います。幸いにして書誌情報ID（？）は固定長なので、書誌毎の画像をWebで公開されている順番にならべて、その順番の番号を固定長でつけました。こういうのをPHPでやってしまう人なので sprintf("%05d", $filename); という感じです。結果として、今のところ、3,957,881点（多分重複あり）のすべての画像が「書誌番号ID_5桁の連番.jpg」という風になっています。

「1書誌ごとに全画像を１つの頁にまとめる」というのは、半分、上記1. の話の繰り返しになりますが、たとえばこんな感じで、各書誌ごとに頁を生成して、そこから、その書誌に対応する画像へのリンクが表示されるようにしてみました。

　さて、ここまで来たら、今度はIIIF manifestやダウンロード画像を探しやすくする工夫です。といっても書誌情報がオープンデータ化されていない現状では、できることは極めて限られていますが、一応、タイトルで検索できるようにしてみました。いわゆる親書誌と個別の書誌で同じ画像を含んでいる場合もあったり、結果として同じ画像が重複してヒットする場合もあるかもしれませんが、その点はご容赦ください。

　というわけで、とりあえずこんなものを作ってみました。サイトにちゃんとした名前をつけたいような気もするのですが、これはあくまでも本家の国文研サイトでIIIF manifestやダウンロードしやすい仕組みが提供されるまでのつなぎですので、「テストサイト」としています。この仕組みは、以前に国文研データベースの画像を全部チェックして仏典画像を探した時に苦労した点を反映したもので、基本的には、各本へのリンクが一覧表示されている画面からなるべく動かずに色々な情報を得られるように、というものです。

　まず、国デコ（国立国会図書館デジタルコレクション）ではすでに用意されている機能を少し発展させたものとして、少し大きめの頁のサムネイル画像を、頁を指定して一覧表示画面に列挙できるようにしています（たとえば、10頁のサムネイル画像を表示させる、といった具合です）。この機能があると、それぞれの本がどういうものか、ということについての簡単な見通しが得やすくなりますので、ちょっと作業がやりやすくなります。そして、そのサムネイル画像をクリックすると、Miradorで、その頁を拡大表示した形で、その本が表示されます。こうすると、内容の確認に入りやすい上に、Miradorは他の頁に飛ぶ方法が楽なので（頁下部のサムネイル画像をクリックするだけ）、その点でも便利です。国文研のデータベースも新しいものでは部分的にサムネイル画像が用意されるようになってきているようですが、「サムネイル画像は準備中です」となっているものに多く遭遇する上に、一度に閲覧できるサムネイル画像の数が少ないので（これは国デコもなのですが）、微妙に不便です。また、サムネイル画面と個別頁の画面はいちいち別ページを読み込む形になるので、そのたびにビューが切り替わり、さっき見ていたものがわからなくなるのは、たくさん画像を見なければならないときは結構疲れます。Miradorでの、頁拡大画面の下部にサムネイルがリストされる表示方法は、その点、結構楽でありがたいことです。ただ、この点については好みの問題もあるかもしれないので、あくまでも私が便利で楽だと思っている、ということにしておいていただけたらと思います。

　それから、書誌詳細を、ポップアップウインドウに表示されるようにしました。これは、国文研の現在のデータベースでは、新しい頁を開いてしまうのでちょっと大げさです。せっかくGET Methodに対応したのですから、こういう感じで表示してもらえると、視線があまり動かないのでありがたいのです、と思っております。ポップアップでなくても、フレームみたいなものでもいいのですが。

　それに加えて、画像ダウンロードのリンク、Mirador、Universal Viewerへのリンク、IIIFドラッグ＆ドロップアイコンなどもご用意いたしました。ここら辺を何らかの使いやすい形で本家でもいずれ用意していただけたらと思っているところです。

　オープンデータとして公開されたのに十分に活用されていない、となると、今度はかえってオープンデータ公開の意義が問われることになってしまいかねません。ということを最近いつも心配しております。とりあえずここまでしておけば、簡単なダウンローダを使って持って行って色々試したりすることも比較的容易にできると思いますので、みなさま、ぜひ色々ご活用してみてください。

　それから、この画像をオープンデータ化する決断をしてくださった国文研への感謝の念と参照情報は、常に忘れないようにしましょう。特に参照を明確に・できれば機械可読な形でも提示することは、オープンデータの意義を高めることに割と直接的につながり、他の機関のオープンデータ化を後押しすることにもなると思いますので、ぜひともよろしくお願いいたします。

今回新規にご紹介したURL：

http://www2.dhii.jp/nijl_opendata/kanzo_all.txt

http://www2.dhii.jp/nijl_opendata/searchlist.php

2016-10-16

IIIFのための画像サーバ導入記（JPEGのままで/Tomcat編）

IIIF IIIF環境準備

IIIF Image API対応画像サーバ Digilib のインストールについてのご紹介

以前に、IIIFのための画像サーバを導入するための方法として、IIP Image serverをご紹介（簡易版）しました。多分これが最速なのではないかと思うのでとりあえずご紹介したのですが、一方で、ソースコードからのコンパイルが必要になる上に、jpeg2000かTiled Tiffが必要なので画像の準備が大変、ということがありました。そこで、普通のjpeg画像でも使える上にコンパイルする必要もない、Loris というPythonで書かれたサーバソフトがある、という言及だけはいたしました。とはいえ、Pythonはあんまり速くない上に、インストールに際しての依存関係の解決が結構大変で、どうやったか思い出せないほどだったので（Pythonを普段使いしている人には簡単なことかもしれないのですが）、導入記をご紹介するにはちょっと難しい、という状況でした。

しかしながら、「jpeg画像をそのまま使いたい」「ソースコードからコンパイルと言われてもちょっと難しそう」という話を色々な方々からいただきましたので、Lorisのインストール記を書くか、それとも…と悩んだ挙げ句、結局、別の選択肢を試してみることにしました。（この週末はこれともう一つのネタでほぼ終了です）

IIIFの公式サイトで紹介されている画像サーバソフトの中にdigilibというものがあります。今回はこれを試してみました。

digilibは、Java Servletで動作します。必要な環境としては、Java 1.6以降に加えて、サーブレットコンテナとして、Tomcat 7以降、もしくは、Jetty 8以降が必要だそうです。ただ、Tomcat環境を用意する方法はあちこちに書いてあって、おそらく、ソースコードからコンパイルするといった手順とは要求される作業の種類がだいぶん違っていて、おそらくレンタルサーバ環境でも比較的容易だと思われます。

　ここでは、CentOS7 + Apache 2.4 + Tomcat7を前提として作業をしていきます。他のdistribution/OS/サーバソフトを使っている人は適宜読み替えてください。

１．Tomcat7環境の用意

　まず、Tomcat7環境を準備します。すでに用意してある人は読み飛ばしてください。サーバ環境が異なっている人は自分の環境にあわせて構築してください。それから、そもそも、この話はあちこちのサイトに親切丁寧に書いてありますので、適当に流して書きます。以下のような感じです。

$ sudo yum install tomcat-*
$ sudo systemctl enable tomcat.service
$ sudo systemctl start tomcat.service
$ sudo systemctl status tomcat.service

これで、tomcatが動作していればとりあえず第一段階はOKです。

次に、tomcatをapacheと共存させられるようにします。ajpモジュール、というもので連携できるそうですが、CentOS7のhttpdには最初からついているそうです。

そこで、ajpモジュールの設定ですが、エディタで下記のファイルを作成して

$ sudo vi /etc/httpd/conf.d/tomcat.conf

以下のような内容を記入します。
<Location /tomcat/>
ProxyPass ajp://localhost:8009/
</Location>

そうしたら、httpdとtomcatをそれぞれ再起動します。

$ sudo systemctl restart httpd.service

$ sudo systemctl restart tomcat.service

これでTomcat7環境の準備は多分OKです。

http://サーバのホスト名/tomcat/

にアクセスして確認してみてください。

2. digilibの設置

さて、次は設置ですが、これは公式サイトに載ってますので粛々とこれに沿って作業します。

まず、インストールするサーバソフトですが、最近も細々修正をしているようなので、こちらから最新版を入手しました。それを

$ cp digilib-webapp-2.4-SNAPSHOT-srv3.war digilib.war

として、

$ sudo mkdir /var/lib/tomcat/webapps/digilib
$ sudo cp digilib.war /var/lib/tomcat/webapps/digilib
$ cd /var/lib/tomcat/webapps/digilib
$ sudo unzip digilib.war

として、

http://サーバのホスト名/tomcat/digilib/digilib.html

にアクセスしてみましょう。ここでたとえばこんな風にdigilibの画像が表示されれば、多分、インストールは成功だと思います。

3. digilibで手元のjpeg画像を表示できるように

次はいよいよ、自分の画像を表示できるようにする設定です。

設定ファイルの置いてあるディレクトリに行って

$ sudo cd /var/lib/tomcat/webapps/digilib/WEB-INF

設定のテンプレファイルをコピーします。
$ sudo cp digilib-config.xml.template digilib-config.xml

ここでいったん、デフォルト設定を確認してみましょう。

http://サーバのホスト名/tomcat/digilib/server/dlConfig.jsp

にアクセスしてみると、デフォルト設定が出てきます。とりあえず最低限チェックしておく必要があるのは

basedir-list

/usr/share/tomcat/webapps/digilib/sample-images/

という箇所です。つまり、このディレクトリに置いた画像がdigilibを通じて読めるようになります。ですので、色々いじるのが面倒な場合は、このディレクトリ以下に画像ファイルを置いたりシンボリックリンクを張ってしまったりするという手もあります。

　とはいえ、このままだとなんとなく気になるという人もおられるでしょうから、これを変更する場合は、
$ sudo vi digilib-config.xml

として、

という風に編集して保存してから、tomcatの再起動です。たとえば、

/var/www/iiifimages/poppo/001.jpg

/var/www/iiifimages/poppo/012.jpg

/var/www/iiifimages/coyking/001.jpg

/var/www/iiifimages/coyking/400.jpg

などとなっている場合、/var/www/iiifimagesが外から見えるパーミッションになっていることを確認した上で、上記のXMLタグの値を

という風にします。そこで、

$ sudo systemctl restart tomcat.service

としてTomcatを一応再起動してから、

http://サーバのホスト名/tomcat/digilib//digilib.html?fn=poppo/012

http://サーバのホスト名/tomcat/digilib//digilib.html?fn=coying/400

にアクセスすると、たとえばこんな感じで、digilibビューワごと表示されます。

f:id:digitalnagasaki:20161016185935j:plain

この仕組みは、詳しくは公式サイトの解説をご覧いただけたらと思いますが、簡単にご紹介しておきますと、basedirで与えたディレクトリをベースとして、fn=で与えられたディレクトリ・ファイル名を探し出して表示する仕組みです。ただし、拡張子は自動的に探してくれますのでここでは記載しないようにします。また、色々な拡張子の同名ファイルが同じディレクトリに入っているとうまく表示できないのでその点はご注意ください。（私はこれでちょっとハマりました。）

さて、これで満足して公開してしまうのも一興ですが、ここでの目標はIIIF Image APIですのでもう少し頑張ります。

なお、ここで画像がうまく表示されない場合は、下記のURLにて設定を確認してみましょう。

http://サーバのホスト名/tomcat/digilib/server/dlConfig.jsp

4. IIIF Image APIの設定（どハマりして半日つぶしました）

さて、マニュアルによれば、ここまでできれば、あとはURLの書き方を変えるだけでIIIF Image APIとしてアクセスできるはずです。ポイントは、上記のfn=で指定していたローカルのファイルパスにあたる部分のディレクトリの区切り記号を「/」から「!」に変更する点、それから、「digilib/Scaler/IIIF」というURLがデフォルトになっているという点でしょうか。で、さっそくアクセスしてみたところ、以下のように普通にできたので、

http://candra.dhii.jp/tomcat/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005/1200,1000,500,500/800,/0/default.jpg

これをPresentation APIに組込んで、「lorisと速度比較だ！（わくわく）」と試してみたのですが…

拡大画像が表示されないのです。そこで、Google Chromeで「Control+Shift+i」でコンソールを開いて見てみたところ、変なエラーが。このエラーはinfo.jsonにて確認できそうなので見てみると、どうも、画像の@idは本来下記のようになっているべきなのに、

http://candra.dhii.jp/tomcat/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005

info.jsonを見る限りでは下記のように「/tomcat」というのが抜けており、
http://candra.dhii.jp/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005

ビューワ側では拡大画像へのアクセス時にこれを使って分割画像へのアクセスをしようとしてしまうので、分割画像が404 Not foundになってしまうようなのです。
　想像するに、そもそもdigilabはApacheとJava Servlet環境を共存させるような使い方を想定せずに作られたのかもしれないと思ったところですが、それはともかく、これをなるべく簡単に解決しないことにはみなさまにdigilabのインストール方法をご紹介するどころの話ではありません。

もちろん、一番簡単な解決方法はソースコードをいじって修正することなのですが、これをやってしまうとみなさまにインストールをご紹介する際の難易度が一気に高まってしまいます。そこで、なるべく普通に設定のみでクリアする方法を考え試行錯誤した結果、以下のような方法が一番簡単そうだというところにたどり着きました。一応、実際にきちんと動作しました。

「 ApacheのRewirteRuleで /tomcat -> /digilibに飛ばす」

さて、具体的な手順ですが、まず、

$ sudo vi /etc/httpd/conf/httpd.conf

で、apacheの設定ファイルを開いて、下記を追記する。

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteRule ^/digilib(/.+)$ http://サーバのホスト名/tomcat/digilib/$1
</IfModule>

そうしましたら、httpdとtomcat（念のため、一応）をそれぞれ再起動します。

$ sudo systemctl restart httpd.service

$ sudo systemctl restart tomcat.service

これで、私の環境（上述、特にこの件ではApacheのバージョンに要注意）ではうまくいきました。　もしIIIIFビューワでうまく表示できなければ、ブラウザのコンソールを開いてみてCORSのエラーが出てないかどうか確認してみてください。CORSのエラーに関しては、Tomcat側でHeaderをsetできますので、WEB-INF/web.xmlあたりにちょっと追記してみてtomcatを再起動してみるとよいかもしれません。

とにかく、Jpeg画像をそのまま使えることはIIIF Image APIの導入にあたって重要な留意事項なのですが、Lorisサーバがあんまりはやくないのとインストールがちょっとややこしいこともあり、ご紹介に躊躇しておりまして、digilibは、TomcatかJettyの環境さえあればあとは割と簡単そうなので、今回ようやくご紹介するに至りました。

digilibは、今のところ、Lorisよりもちょっとはやそうな雰囲気ですが、自宅のネット環境があまりよろしくないので、実はよくわからない状況です。とりあえず、digilibが実用レベルかどうか、だけでも結構ですので、試してみた方はお知らせいただけますと幸いです。

それから、上記の記述に何か間違いなどありましたらお知らせいただけますと幸いです。

ということで、今後とも、よろしくお願いいたします。

2016-09-17

Mirador 2.1 (IIIF対応ビューワ)リリース＆日本の古典籍が登載！

IIIF Mirador

IIIF（International Image Interoperability Framework）対応の高機能画像ビューワの代表格の一つであるMiradorのバージョン2.1が、ついに、ようやく、リリースされました。（ダウンロードはこちらが簡単です。このビューワはローカルパソコンにダウンロードしたものでもネット接続されていれば動作します。）

　英語を読むことに支障がない方はぜひ公式ページをご覧ください。開発の中心メンバーは、ハーバード大学の Rashmi Singhal さんとスタンフォード大学図書館のDrew Wingetさんで、プロジェクトを率いているのはスタンフォード大学図書館のStuart Snydmanさんです。開発はGitHub上で行われており、世界中から様々な人が貢献しています。私も若干ですがお手伝いしております。

裏側の諸々はともかく、ユーザから見た今回のリリースの目玉は、

（１）表示している画像の調整機能

（２）より充実したアノテーション機能

の２点かと思います。そして、日本人や日本文化好きな人にとっては、

（３）日本の古典籍が標準サンプルとして登載

というのもうれしいことかもしれません。あと、

（４）インターフェイスの日本語表示

も追加されました。

ということで、さっそく、こちらに仮インストールしたMiradorを使って、一つずつみていきましょう。

　まず、最初に開いた画面では下記のようになっているはずですので、臆せず画面の真ん中をクリックしてみてください。

f:id:digitalnagasaki:20160917031800j:plain

そうすると、下記のように、各地のIIIF対応サーバから集められたサンプル資料がリストされ、選択＆表示できるようになります。そこで、とりあえず、ヴァティカン図書館の画像資料をクリックして開いてみましょう。

f:id:digitalnagasaki:20160917031904j:plain

デフォルトでは、画面下にページのサムネイル画像が並ぶはずですので、そのなかから適当なページをクリックしてみてください。そうするとそのページの拡大画像が表示されるはずです。ここで、右下の＋ーアイコンをクリックすれば画像の拡大縮小ができます。

f:id:digitalnagasaki:20160917032028j:plain

ここまでがごく基本的な操作方法です。次に、いくつかの目玉機能を見ていきましょう。

（１）表示している画像の調整機能

画像表示ゾーンの左上から２番目にあるアイコンをクリックすると、画像調整用のバーが開きます。ここから、表示中の画像の明度や彩度、コントラストを調整したり、回転させたり、白黒にしたり、といったことができます。

　下図は、画像調整用のバーを表示してから明るさを調節してみています。

f:id:digitalnagasaki:20160917034233p:plain

下図は、色反転をしてみています。

f:id:digitalnagasaki:20160917034235j:plain

（２）より充実したアノテーション機能

画像表示ゾーンの左上のアイコンをクリックすると、アノテーションモードになります。ここで、アノテーションが表示できるようになります。

　さて、アノテーションを表示してみるために、すでにアノテーションがついている画像を開いてみましょう。まず、左上のアイコンにカーソルをあわせるとサブメニューが表示されますので、その中から「新しいオブジェクト」をクリックしてみましょう。

f:id:digitalnagasaki:20160917034416j:plain

そうすると、再び、下記のような画面になります。下の方に「唐糸草子」という資料がありますので、これをクリックしてみてください。

f:id:digitalnagasaki:20160917034429j:plain

「唐糸草子」で、テキストのあるページのサムネイルをクリックしてみましょう。そうすると、そのページの拡大画像が表示されるはずです。

f:id:digitalnagasaki:20160917034459j:plain

ここで、画像表示ゾーンの左上のアノテーションのボタンをクリックしてみましょう。

f:id:digitalnagasaki:20160917034519j:plain

そうすると、下記のように、アノテーションが付与されている箇所が表示され、さらに、カーソルをあわせるとその内容も表示されるはずです。ここでは、カルガリー大学の楊先生が付与してくださった翻刻テクストが表示されています。

f:id:digitalnagasaki:20160917034540j:plain

画像や翻刻テクストのクレジット表示は、右上の（i）アイコンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160917034601j:plain

さらに、ここでは、自分で新たにアノテーションをつけることもできます。アノテーションアイコンの右側にある「矩形で選択」「楕円形で選択」などをクリックしてから画像上でドラッグすると、アノテーションをつけることが可能になります。ここでつけたアノテーションは、デフォルト設定では自分のWebブラウザに保存されます。LocalStorageという仕組みを用いているので、ブラウザ側にずっと保存されることになります。

f:id:digitalnagasaki:20160917034618j:plain

　もし、このアノテーションを他の人と共有できるようにしたければ（Webコラボレーションなどをしたい場合は必要となるでしょう）、サーバにアノテーションを保存できるような設定方法があるようですので、ぜひどなたかお試ししてみてください。

（３）日本の古典籍が標準サンプルとして登載

　すでに上でみていただいたように、「唐糸草子」の翻刻テキスト付きのものが標準サンプルとして登載されています。これは、国文学研究資料館が「国文研データセット」として公開したものを筆者のWebサイトにてIIIF対応で公開し、さらにそれに、カルガリー大学の楊先生がWebコラボレーションシステムを用いて翻刻テクストをつけてくださったものです。

　それから、SAT大正蔵図像DBが公開している曼荼羅画像も登載されています。

　それに加えて、スイスのバーチャル写本図書館、e-codiesが奈良絵本の画像を提供してくれています。これも大変ありがたいことです。

f:id:digitalnagasaki:20160917034630j:plain

（４）インターフェイスの日本語表示

　これは筆者がとりあえずやってみたものですが、より適切な訳し方がありましたら、ぜひご提案ください。

なお、Mirador 2.1では、ページの表示方向が左から右のみとなっております。日本語資料や東洋の資料では、右から左に書いていくものも多く（特に縦書きの資料で）、ページの表示方向も右から左となっていてほしいところです。これについては、次期のマイナーアップデートであるversion 2.1.1で対応予定とのことです。筆者は、必要に応じて右から左に表示方向を切り替える機能を組み込んだMiradorの改良版を開発して使っておりますが、もう少し待てば、本家の正式版にてきちんと実現できるようになるそうです。

それから、Miradorの複数画像並置機能の使い方のサンプルとして、Miradorもビューワの一つとして採用している「国デコImage Wall」の使い方をざっとみていただく動画を作成しました。お時間がございましたらぜひこちらもご覧ください。

www.youtube.com

ということで、IIIFとMiradorがもたらすWeb高精細画像が共有された世界の一端を、ぜひお試しください。

2016-08-29

国デコ（国立国会図書館デジタルコレクション）の使用感を今更ながら…

国デコ（国立国会図書館デジタルコレクション）を常日頃大変活用させていただいており、国立国会図書館の中の人達が色々努力と工夫を重ねてきておられるということはよく認識しております。その上での話なのですが、ここしばらく、国デコをかたっぱしから見ていくという作業をしていたので、そこでちょっと気になった点をいくつかメモしておきます。

すでに多くの人が感じていることであり、ほとんど（あるいはすべて）中の人も認識しておられることだろうと思うのですが、次回のシステム更改の際などにご検討いただけますと幸いです。

1. 出版（刊行）年の取り方がどうもよくわからない…？

　issued:W3CDTFのデータをみると、西暦で出版年を取ることができます。しかし、0で終わっているものの場合、その年代で詳細が不明な場合、issuedを見ると[18--]などとなっており、その-をissued:W3CDTFでは0に変換しているようです。これの典型的な例は1000年で、インターネット公開資料だけで6021件もあるようなのですが、実際、1000年を見てみると、江戸時代のものとしか思えない大変きれいな浮世絵のようなものも表示されたりします。これはissuedを見ると[1---]となっており、2千年紀であること以外わからない場合につけられている場合があるような雰囲気です。しかしながら、issuedには必ずしも西暦が入っているとは限らず、ここは色々な書き方がなされているようでもあります。検索APIで500件までとれるのでちょっと見てみたところ、以下のような感じです。それぞれの書き方に対して登場件数もつけてみています。

なし？: 100
乾隆: 15
乾隆刊: 3
元刊: 1
光緒: 4
光緒刊: 8
光緒寫: 2
光緒石印: 12
古寫: 1
嘉慶刊: 55
奈良室町寫: 1
奈良寫: 1
宣統刊: 1
室町刊: 2
室町寫: 5
弘治12序刊萬暦補刊: 8
明刊: 7
明寫: 8
朝鮮刊: 3
朝鮮刊補配活字印: 1
民國: 1
江戸: 1
江戸刊(鹿角山房藏版): 14
江戸刊: 9
江戸初期寫: 5
江戸寫: 29
江戸木活字印: 3
江戸活字印: 1
清刊: 20
清初刊: 6
清寫: 4
清寫,附江戸寫: 23
萬暦刊: 3
道光光緒刊: 8
道光刊(世楷堂藏版): 1
鎌倉中期刊: 1
鎌倉刊: 8
［1---］［写］: 157
［1---］［寫］: 7
［1---］: 47
［室町-明治時代］［写］: 1
［室町時代］［写］: 2
［室町時代］: 1
［平安-室町時代］［寫］: 2
［康煕］: 1
［明刊］: 2
［江戸時代］［写］: 2
［江戸時代］: 1
［鎌倉時代］［写］: 1
［高麗］刊: 1

こうして見てみますと、せっかくこういう情報を書いていただいているので、ここから「範囲」の情報などを入れていただくとか（というのはちょっと大変過ぎるかもしれませんが）、あるいは、書き方をある程度統一してみていただくとか、表示結果が統合されているようにラッパー的なものをかましていただくとか、何かしていただけるとありがたいなあ、と思ったところでした。（おまえがやれ、と言われそうでもありますが…）しかし一方で、納税者としては、ここにあまりお金をかけすぎても困るとも思っておりますので、何か良い案配の対策を見つけていただけたらと思っております。あと、少なくとも、ここにどういう語彙が用いられているのか、というリストもあるとありがたいなあ、などと思ったりもしております。ぱっとみて気になるのは、たとえば、

＞江戸寫: 29

＞［江戸時代］［写］: 2

＞明刊: 7

＞［明刊］: 2

あたりでしょうか。少なくとも２系統あるような感じとも言えるでしょうか。入力時期の違いによるのかもしれませんね。検索APIの制約で500件しか採れてないので、残りの5500件程がどうなっているかわからないのですが…

　いずれにしましても、ここら辺を、私のようなDIY プログラマにも使いやすいように整備していただくのは、NDLのデータが幅広く活用されるようになっていく上でもとても重要なことかと思いますので、ぜひ前向きにご検討いただけたらと思います。

2. 読み進める方向とカーソルキーやサムネイルの並びが？

　おそらくは近代デジタルライブラリー由来であろう書籍資料は、サムネイル一覧を表示したときに左から右にサムネイルが並びます。さらに、ページを繰っていく時も、「⇒を押すと次ページ」です。縦書き資料の場合、カーソルキーと読んでいく方向が逆になってしまうので、ちょっとわかりにくい感じになってしまっています。カーソルキーに関しては、「古典籍資料」でも同様です。特に古典籍資料の場合は、縦書きがきわめて多いので、「⇐を押すと次ページ」という風になっているといいのかなと、さらに言えば、縦書き横書きのフラグをたてるなり自動認識を試みてみるなどして、縦書きと横書きで方向を変えられるといいのではなかろうかと思っております。

　そして、これに関連した困った問題として、サムネイル一覧の表示については、古典籍資料はちゃんと右から左に並んでいて、しかし、上述のように、古典籍資料でないものは左から右、という風になっています。近デジ／古典籍資料で対応が別れているのかもしれませんが、実際には、一つの検索語で検索して色々な時代の資料がヒットしたりすると混在するものを見ていくことになるので、これはなかなか頭の切り替えが難しいです（年のせいかもしれませんが）。この点でも、やはり、読んでいく方向に全体的にあわせる、といったような対応が期待されるところです。

3. 「著作権保護期間満了」と「文化庁長官裁定」を区別して検索できない（ような？）

　教材やその他、再利用を前提として国デコ資料を探す機会は結構あると思うのですが、文化庁長官裁定により公開されている資料だと、再利用に結構な制限がかかるのではないかと思います。ですので、検索の時点で除外してもらえるとありがたいのですが、私の使い方だと（見落としているだけだといいのですがもしそうなら見落としにくいようにわかりやすくしていただけるとありがたいです）、「インターネット公開資料」以上の絞込ができないので、各資料のページを開いてからいちいち確認していますがたまに見落としてしまって、あれれ、という風になります。

　なお、先日中の人におうかがいした際に、「APIでは区別できるようになっている」とおうかがいしたのですが、検索APIでの区別の仕方をうまく見つけられずにおります（というか、インターネット公開か館内限定か、というフラグもうまく見つけられておりません）。各資料のURLにアクセスすると、dcterms:rightsとかdcterms:accessRightsなどでアクセスできるようなのですが、検索APIでの500件上限という制約もありますので検索APIで絞込みできるとありがたいなあと思っているところなのです。いずれにしても、まだ自分では最新版のAPIを確認しきれていないのですが、できるなら、ぜひ確認して適用したいと思っております。また、一方で、国デコ検索ページでも、保護期間満了と裁定を区別できるように（あるいはそれがわかりやすいように）していただけるとありがたいです。

4. サムネイル一覧はもうちょっとたくさん出てくれるとありがたいです。

　これについては、これ以上申し上げることはありません。

他にもいくつかあったような気がするのですが、今夜飛び込みで入った仕事に注力していたら忘れてしまいました…。

それから、2.や4.に関しては、　このブログで何度かご紹介しているIIIFを導入していただければ基本的には解決できますので、その意味でもぜひご検討いただけたらと思っております。導入だけなら無料でできますので、ぜひともよろしくお願いいたします。

2016-08-08

Crowd4u+翻デジ+IIIF⇒国デコImage Wall お試し版～NDLのデジタルコレクションを図像から見ていくサイトです

IIIF IIIF応用

このたび、筑波大学の森嶋研究室によるCrowd4uプロジェクトと日本デジタル・ヒューマニティーズ学会による翻デジプロジェクトが連携して、

国デコ Image Wall お試し版（あるいは、国デコ・ウォール）

http://lab.ndl.go.jp/dhii/kunidecoview/

というものが暫定的に開設されました。ちなみに、「国デコ（くにでこ）」というのは、国立国会図書館デジタルコレクションの略称として一部で使われている名称です。

Crowd4uプロジェクトと翻デジプロジェクトでは、これまで、国立国会図書館近代デジタルライブラリー⇒デジタルコレクションのデジタル化資料を対象とした、２つのマイクロタスク・クラウドソーシングに取り組んできました。一つは、OCRによって識別した文字を人の目で見て正しいかどうか判定するものです。そして、もう一つは、「ページの中に図表や絵などが入っているかどうか」を人の目で判定するものです。後者は比較的単純なタスクなので、簡単に取り組める仕組みを用意して（これについては森嶋研究室からいずれご紹介があると思います）、「図表や絵の入っている国デコ資料のページの永続的識別子」をひたすら集め続けました。それをまとめてFlickrに載せてしまうという手もあるのですが、とりあえず、まずは手元で色々できるようにしてみようということで、自サイトに簡単な仕組みを構築しました。下記のようなページです。

f:id:digitalnagasaki:20160808023315j:plain

f:id:digitalnagasaki:20160808015011j:plain

目的は、とにかく、絵や図から見ていくことで、文字で探すこととは少し違った視点から新しい発見を得られないかということです。画像は毎回ランダムに表示されますので、刊行年を示すスライダーと、キーワードによる絞り込み機能を使って色々絞り込みつつ、毎回配置の異なる画像群を見ていく形になります。気になる画像があったらクリックすると、下記のように画像がある程度拡大表示されて、目次があれば目次が表示されて、当該画像が含まれる章や節のタイトルが赤字で表示され、さらに国デコの当該ページへのリンクと、IIIF対応ビューワへのリンク、さらに、IIIF Manifestが表示されますので、適宜選んでいただく形になります。

f:id:digitalnagasaki:20160808015610j:plain

国デコの書誌情報にすべて依存していますので、下記のように目次情報がない場合も結構あります。

f:id:digitalnagasaki:20160808020025j:plain

リンク先にはIIIF対応のUniversal Viewerも用意していますので、たとえば、Viewerの左下のアイコンをクリックすることで下記のようなURLを取得して誰かに送付し、同じページの同じ箇所を拡大表示して見てもらうこともできます。

http://universalviewer.io/?manifest=http://lab.ndl.go.jp/dhii/iiif/1939384/manifest.json#?cv=11&c=0&m=0&s=0&z=0.4401%2C0.117%2C0.6723%2C0.4177

このURLだと下記のような形で画像が表示されるはずです。

f:id:digitalnagasaki:20160808020258j:plain

あるいは、Miradorで一手間かければ、以下のような感じであちこちに登場する児雷也を比べて見てみることもできます。

f:id:digitalnagasaki:20160808022146j:plain

もちろん、普通に本として見ていったりすることもできますし、Miradorを使えば画像上にタグ付けをすることもできます。ぜひご活用ください、というほどのものではありませんが、何の折りに時々見ていただけると、だんだん画像が増えていく予定ですので、いつか、面白いものに出会えることがあるかもしれません。

今後の課題としましては、まだ画像数がそれほど多くないので、画像を増やしていくのが、まずなんといっても重要課題です。これは、徐々に増えていくと思います。

　それから、閲覧検索機能も、現段階では、ごく基礎的な機能しかありませんので、今後色々発展していくなかで、目的や使い方も変っていくかもしれません。特に、Miradorの開発がかなり進みつつありますので、それにあわせて結構便利になるかもしれません。

それと、技術的な事柄についても簡単に書いておきますと、とにかく、国デコのデータを引っ張り出して活用、これに尽きます。

　IIIF対応は、IIP Image Serverという、このブログでご紹介したことのある画像配信サーバソフトを導入し、国デコのJPEG画像からImageMagickのconvertコマンドでピラミッド型タイルTIFF画像を作成し、国デコのWeb APIを利用して書誌情報をとってきて画像ファイル情報とあわせて最低限の内容のIIIF Manifestファイルを作成するプログラムを書いて、あとは自動です。

　国デコImage Wallの方は、Jquery UIのSliderを利用して刊行年による絞り込みをできるようにして、JqueryのプラグインであるLazy Loadを使うことで大量画像読み込み時のサーバ・クライアント・ネットワークの負荷を低減させています。サムネイル画像や少し大きな画像の生成は、IIIF Image APIで行っています。以下のような感じです。

サムネイル：

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!300,220/0/default.jpg

少し大きな画像：

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!800,600/0/default.jpg

あとは、書誌情報や目次情報の表示の際にも、上記と同様に、しかし今度はJqueryを利用して国デコのWeb APIにアクセスして必要なデータを取得しています。なお、目次の該当箇所を赤地にしているのは、目次の各章・節に画像番号がついているのでその画像番号と対応する識別子とを比較して、該当するものを検出して赤字にしているだけです。これも国会図書館が頑張って目次情報に画像番号まで付けてくれているおかげなので、ありがたいことです。

さて、最後になりますが、Crowd4u+翻デジでは、マクロタスク・クラウドソーシング・デジタル翻刻という取組みも進めてきております。これも、もう少し時間がかかりそうですが、いずれ公開いたしますので、もうしばしお時間をください。

2016-07-30

簡易テクスト分析にVoyant-Toolsもいかがでしょうか？

先日ようやく、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点が開設する人文情報学概論（いわゆるデジタル・ヒューマニティーズ）の授業を履修した大学院生達によるVoyant-Tools日本語インターフェイスβ版が公開されました。そんなに腕に覚えがないのにデータを視覚化・可視化しなければらない人や、テクスト分析を手軽にちょっと試してみたい、という人向けの、簡単にちょっと使えるテクスト解析ツールです。そして、今回のバージョンでは、日本語の解析も普通にできます。分析したい頁のURLを集めてきて、まとめて貼り付けるだけで解析して色々な形で視覚化してくれます。複数ファイルをアップロードして解析することもできます。とはいえ、あんまり細かいことはできないのですが、Web環境でイージーに使える、というのと、ダウンロードしてJava環境でも使える（＝WindowsでもMacでもLinuxでも使える）というのが割と大きなメリットになる場合があろうかと思います。

　なお、このツールを作成・提供しているのは、カナダ・マギル大学のDHの准教授Stéfan Sinclair氏と、カナダ・アルバータ大学のGeoffrey Rockwell教授です。

では、たとえば、旧七帝大の総長の最近のご挨拶などのURLをちょっと分析してみましょう。

まずは、URL収集です。今回は下記のURLを使ってみています。

http://www.hokudai.ac.jp/introduction/president/message/282016.html
http://www.tohoku.ac.jp/japanese/profile/president/01/president0102/20160104.html
http://www.u-tokyo.ac.jp/gen01/b01_01_j.html
http://www.nagoya-u.ac.jp/about-nu/president/index.html
http://www.kyoto-u.ac.jp/ja/about/president/message.html
http://www.osaka-u.ac.jp/ja/news/topics/2016/01/files/20160104_01
https://www.kyushu-u.ac.jp/ja/university/president/message/150801message/

（なお、複数URLでなく、複数のファイルをアップロードすることもできます）

これらのURLを、下記のように、テキストエリアに貼り付けます。

f:id:digitalnagasaki:20160729235752j:plain

そして「結果を表示する」をクリックすると、下記のようになりました。Voyanto-toolsが以前から活用しているシーラスという機能を用いて、以前より高度な検索もできるようになった感じあります。

f:id:digitalnagasaki:20160730000026j:plain

しかし、このままでは助詞助動詞の類いが多く、文体の特徴はつかめるかもしれませんが、内容の特徴をつかむにはちょっと難しいような感じがします。そこで、「ストップワードリスト」を作って読み込ませてみます。ストップワードリストを作成するには、下記の図中の赤丸の箇所をクリックします。

f:id:digitalnagasaki:20160730032841p:plain

そうすると、下記のようなダイアログが表示されます。

f:id:digitalnagasaki:20160729235944j:plain

ここで、「ストップワード」のところの選択肢として「新規リストの作成」を選んで「リストの編集」をクリックすると、リストの編集画面が表示されます。この編集画面で、上記のシーラスの画像を見ながら、自分の分析には必要なさそうな単語をどんどん追加していきます。そして、「全体に適用」にチェックボックスがはいっていることを確認して、追加が終わったら「確認」をクリックすると、以下のような感じで、内容に関わる語が多く表示されるようになります。

f:id:digitalnagasaki:20160730000137j:plain

あとは、「スケール」をクリックしてみていただくと文書毎に選択できたりしますので、それで多少の傾向をつかんだりすることができるかもしれません。

また、ストップワードを全体に適用する、という操作を行ったので、他のツールも、、ストップワードが適用された状態で再描画されたはずです。それぞれに見てみてください。

さて、Voyant-tools 2.0の大きな目玉の一つは、複数文書を読み込んで文書館の関係を表示できるという機能です。Webブラウザのウインドウの右上の方にカーソルをあわせてから、赤丸をつけたアイコンをクリックしてください。そうすると…

f:id:digitalnagasaki:20160730000225j:plain

下記のようになります。（なお、ここで注意していただきたいのは、この表示では、それぞれのWeb頁のtitleタグを拾って表示しているので、どの文書がどれかわかりにくいことがあります。そういった場合に対応するためには、ローカルで個別にファイルを作成してアップロードする、という手もあります。ただし、ローカルファイルを使った場合、ファイル名ではなく、ファイル中のタイトルプロパティを用いることがあるようですので、あれ？と思ったらそこを確認してみてください。）

これは、メニュー・サブメニューが表示されるものとなっています。

f:id:digitalnagasaki:20160730000320j:plain

ここで「視覚化ツール」から「散布図」を選ぶと、各文書間の関係などが表示されます。また、「バブルライン」「タームラジオ」「テクスチャルアーク」など、選ぶと面白い結果を表示してくれる様々な機能が提供されていますんので、それぞれ試してみてください。下記は「タームラジオ」の例です。

f:id:digitalnagasaki:20160730020650j:plain

下記のグラフは、文書間の類似度を表示するもののようです。

f:id:digitalnagasaki:20160730035931j:plain

それから、今回のバージョンはスタンドアロンで利用することもできます。スタンドアロン版では、ネットにつながらない、サーバにつながらない、皆で一斉に使うと遅くなる、といった問題がなくなりますので、これはこれで結構便利です。詳しくは下記のURLをご覧ください。

https://github.com/sgsinclair/VoyantServer/releases/tag/2.1

なお、スタンドアロン版をパソコン上で使うにはJava実行環境が必要ですので、未インストールの方はとりあえずJava 実行環境をインストールしてください。

以下、最後まで読んでくださった方へのオマケとして、今回使った「ストップワードリスト」を掲載しておきます。無保証ですが、ご自由にご活用ください。

0
1
2
3
4
5
6
7
8
9
a
at
for
in
of
the
あり
ある
い
いる
おり
か
から
が
く
くだ
こと
ことに
この
これ
ご
さ
さらに
し
した
しま
する
その
それ
た
ため
だ
だけ
っ
って
て
てい
で
でき
できる
です
では
でも
と
という
として
な
ない
なく
など
なり
なる
に
において
における
について
の
ので
は
ば
へ
ま
ます
また
み
も
もの
や
よう
より
る
れ
れる
ろう
を
化
的
年

2016-07-01

「デジタルアーカイブ」を考える―「日本」がそのアイデンティティを取り戻すために

「デジタルアーカイブ」に関わる技術について、このブログでは主に扱ってきている。基本的に目指しているのは、そういう情報をきちんと共有して、「車輪の再発明」を避けつつ、無駄な投資も避けて、「デジタルアーカイブ」が適切な歩みを進めていくことに少しでも役立てばと思って、ブログだけでなく、呼ばれれば世界中どこでも参上して情報提供してきている。できれば交通費は出していただけるとありがたいが、大きな波及効果が見込まれる重要な会合なのにどうしても交通費を出せなければこちらの負担でおうかがいすることもやぶさかではない。

しかしながら、なぜ、自分がそういうことをしているのか、それによって何を目指しているのか、ということについてはあまり書いたことがなかったので、２ちゃんねる用語で言うところのチラ裏になってしまう上に、やや断片的になってしまうが、特に、最近重点的に考えていることを少しだけ書いておきたい。

明治維新を通じて、日本は色々なことが変わりつつ、変わらないところはそのままに、さらにその後の2度の大戦を経て現在に至っている。明治維新から2度の大戦の間に何が起きていたのかについては、わかっているようでわかっていないこともあり、国立国会図書館の近代デジタルライブラリーの登場と、その後の国立国会図書館デジタルコレクション（国デコ）の充実によって、それでも断片的とは言え、極めて多くの資料がデジタルで容易に入手できるようになり、いつでも参照できるようになってきた。筆者の専門に近いところでも、細かな情報が入手しやすくなったりして、戦前の専門分野の状況がやや立体的に見えてきたところがある。さらにそれが、どういう世界観、科学観の下で行われてきたのか、ということも断片的ながら見えてきて、現代と対比する面白さとともに、当時の人々に見えていた世界を、これまでよりも少し容易に、少し深く垣間見ることができるようになって、そのこと自体が興味深い体験となっている。それほど重要でない情報も含めた大量の資料に容易にアクセスできるようになることは、ややもすればメジャーな資料に偏ってしまいがちな認識から、世界・社会が常に多様性であってきて、色々な方向に進む可能性を常にはらみながら現在に至っているということを具体的に認識する契機になっている。これは健全な思考を形成する上で重要なことだと筆者は思っているので、そういう多様な全体を認識するための支援装置としての「デジタルアーカイブ」には深く期待している。また、そういう文脈からは、とにかく一定基準で大規模にデジタル化公開してしまう国デコのような在り方の重要性とともに、たとえば高橋晴子先生が長年続けておられる身装関連のデータベース群、特に「近代日本の身装文化」データベースのような、特定のテーマに絞り込みつつ研究者だけでなく専門家でない人にも理解しやすい情報を得られるようなものの有益さも忘れてはならない。そういったものが、Wikipediaにつながっていったり、あるいはまた、色々な人の様々な理解につながっていったりするような、多層的なつながりを形成し、それによって色々な時代の世界観や社会の多様性が共有されるようになっていくといいなあと思っている。

さらに期待しているのは、それよりも前、つまり、明治維新より前の世界観や社会の理解をより広げ、深めていくことである。たとえば、我々の「江戸」のイメージは、人にもよるが、わりと貧困であるように思われる。「江戸しぐさ」などというものが出てくるとなんとなく広まってしまって政府も一時は乗り出しそうになってしまったりして、そんなものはなかったと専門家が一生懸命否定する羽目になってしまったり、そうかと思えば「原発がなくなったら江戸時代に戻ってしまう」などとやたらと否定的なイメージで語られたり、あるいは、識字率が世界的にも極めて高かった、などといった断片的な良いイメージもある。さらに言えば、文明開化・和魂洋才といった形で、それ以前からの精神面は肯定しつつも技術面はとりあえず西洋のものを持ってきて接ぎ木しようとしたり、その一方で、廃仏毀釈によってその精神面もある種の分断が行われようとしたりしたようでもある。筆者が不勉強なこともあり、そこら辺の流れの正確なところはわからないのだが、敢えて言うなら、江戸時代、そしてそれ以前の「日本」（近代国家としてのそれではないにせよ）は、現代の我々から見ると、精神のみが断片的に受け継がれ、それ以外の部分は、なんとも座りの悪いまま「忘れてしまってもよい過去のお話」になってしまっているような感じがしているのである。

　このことに関して、少し前に経験したことがあったので書いておくと、フランスの人達とオープンデータとオープンアクセス、というか、日本で言うところの「デジタルアーカイブ」の話をしていた時に、会合に参加していた日本人から「文化の資料はそういう風に色々やっているが科学に関してはどうなのか」というような質問がでた。これに対する（いわゆる理系の）フランス人の回答が「これは科学の歴史なんだけど？」というものであった。ここで筆者が感じたのは、日本のアイデンティティの分散、というか、分断、であった。日本人にとっては、古い歴史の資料は科学とは関係ないものなのだが、フランス人にとっては歴史は文化社会の歴史であるとともに科学を発展させてきた基盤でもあるのだ。確かに江戸時代までの我々は、西洋から移入した科学とは少々異なる趣で自然の摂理を理解していた以上、そこにある種の分断があるのは仕方がないことではある。しかし、だからといって、我々がかつて自然を、そして世界をどう理解していたか、ということまで遠ざける必要はない。それぞれの時代の文化をうまく理解しようとするなら、どういう世界観・自然観の中で形成されているのか、ということを踏まえた上であってしかるべきだろう。また、そのようにして、我々が世界をどう理解してきたか、ということを知ることは、やや不安定化しつつある世界の中で、上記のように接ぎ木状態になってしまっているかのようにも思える日本のアイデンティティを多様なものの総体として適切に取り戻していく上で、大変重要になってくるのではないか、と思っている。たとえば、大蔵経（仏典の大規模叢書）には雨を降らせる方法を書いたお経、などというものがいくつも（1, 2, 3, 4, 5）入っていて、迷信と言ってしまえばそれまでだが、13世紀に高麗で刊行された木版大蔵経に残っていることが「デジタルアーカイブ」の高精細画像で確認できる状態のものもあり、空海がこの手法を用いていたとされているようなので、日本でも1000年以上前から受容されていた手法であり、さらに、Webでも公開されている古いお経の目録によれば、随・唐の頃にサンスクリットから漢訳されたものだということである。これらの一連のお経の文献学的な解説もWebで論文を読めるようになっている。（これはやや専門的なのでちょっと難しいかもしれないが）。こういったものが自然の摂理として受容され世界観の一部を形成してきた、ということを、こうしたWeb上の資料を通じて多少なりとも垣間見ることができる。その意味で、これもまた、日本のアイデンティティを多様な総体として取り戻していくことに資するものだと言える。ただ、お経となると、どうしても、そのまま皆が読んでいたかと言えばおそらくそうでもなく、むしろ、それが一般にどう受容されていたか、ということも含めた周辺状況が見えないことにはなかなか理解は難しい。

　そこで筆者が大いに注目かつ期待しているのは国文学研究資料館の「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」（歴史的典籍ＮＷ事業）である。これまでにも日本の古典籍の「デジタルアーカイブ」は早稲田大学や立命館大学をはじめ、各地で大規模に取り組まれており、その成果と貢献には多大なものがあるが、この歴史的典籍ＮＷ事業では、30万点の古典籍をデジタル化して公開し、研究に大いに活用できるようにするとしており、さらに、国文学だけでなく異分野との連携・融合を旗印に、総合的な日本の歴史的典籍の研究を推進していくことを目指しているようである。実際の所、味の素食の文化センターとの連携により、江戸時代の食文化に関わる資料を公開することになったり、古典籍中のオーロラに関する記述を探すイベントを開催したり（PDF5枚目の右側に記事が掲載されています）、さらには、医学関連書や本草学、和算等にも取り組んでいるということである。つまり、江戸時代以前を文学研究からとらえるのみでなく、当時の生活や自然の摂理も含めた総体として把握していこうとする取組みが、おそらくは、多様な古典籍の画像の公開とともに進められ、それらの成果も公開されていくのではないかと期待される。もちろん、さらに、画像へのタグ付けも組織的に進めていこうとしているということが先日の人文科学とコンピュータ研究会で発表されていたりもしたので、今後は、そういったタグを通じてアクセスしやすくなったり、解説もついたり、ということも、勝手ながら期待されるところである。今までも研究としてはそういう取組みが色々行われてきていて、本もたくさん出ているが、実際に当時の人々が読んでいたもの、見ていたものを比較的高精細な画像で参照しつつ読んだり理解したりしていく、ということができるようになるとしたら、これまでとはまったく違う状況が生まれてくるだろう。（もちろん、本そのものを手にとって見ているわけではないのでその点が不十分であることを忘れてはならないが）。くずし字が読めないとしても、挿絵が用意されている本も少なくない。たとえば、「閻魔（大）王」という言葉で理解するか、それとも下記の国文研オープンデータセットの画像の「閻魔（大）王」を見たり、さらに閻魔大王の筆記用具や従者の持物等に注目して拡大してみたりしながら理解するか、というのでは、ずいぶん理解の仕方が違ってくるだろう。

さらに言えば、くずし字学習アプリのようなものも出てきていて、すでに万単位でのダウンロードが行われたようであり、今後くずし字コンテンツがどんどん増えていくであろうことを想定すると、全体としてくずし字リテラシーがあがっていって、割と多くの人が読めるようになってしまうのではないか、という期待もしてしまう。

また、上記の画像の例は、単に物語への理解が深まるだけだと思われるかもしれないが、これは『仏鬼軍』という絵巻物語の一部であり、当時の信仰世界を当時の人々にとって理解しやすい形で提示したものであり、その意味では、当時の世界観の一部がここで垣間見えると言うことができるだろう。まだ十分に整理されたものではなく、筆者としても現在取り組んでいることの一つだが、これもまた「デジタルアーカイブ」のなせる技であり、また、IIIF Image APIによってこのようなことが極めて容易に可能となっているという点も強調しておきたい。

　さらに、歴史的典籍ＮＷ事業がある程度予定通りにいけば、かつての日本での自然の摂理への理解の仕方を含む様々な世界観の断片が、比較的高精細な画像を伴って理解できるような成果物としての「デジタルアーカイブ」として出来上がってくることが期待されるが、おそらくはそれだけでなく、様々な人が様々な関心と立場からかつての多様な世界観の断片を総体として再構築することができる環境としての「デジタルアーカイブ」もまた整備されることになると想定される。これらの「デジタルアーカイブ」こそ、「西洋」の導入によって我々のアイデンティティの中に生じた断絶をつなぎあわせて再びまとまった総体としての「日本」のアイデンティティを取り戻すための一つの大きな力になるのではないか、そして、そのようなアイデンティティこそが、日本社会が現代の様々な課題に向かっていくための揺るぎない足場になるのではないかと、筆者としては大いに期待するところである。

さて、筆者は、実は「グローバル化」のような話に割と入れ込んでいるのだが、このような話と、「グローバル化」の話をどのように折り合わせるかということについては、色々な観点がある。基本的には、ローカルなくしてグローバルはない、と考えているので、グローバルには常に意識を向けておく一方で、ローカルとは何か、ということを常に意識しておきたいと思っている。そして、実用的な問題としては、技術をグローバル化して、コンテンツはローカルのものをきちんとローカルとして提示する、さらに、グローバルな技術に対しても、ローカルを適切に対応させられないものはグローバル側に変わってもらう、ということが重要だと思っており、そのための交渉からプログラミングまで色々取り組んでいる。IIIF対応ビューワMiradorのページ遷移の方向を逆にする改良を行ったのはまさにそのような文脈からであり、この改良を報告したところ、ヘブライ語資料を扱っている人から喜びの声をいただくということもあった。黙ってグローバルを受け入れるとただ譲歩しただけで終わりになってしまうが、ただ文句を言うだけでなくこちらからアクションを起こせば色々な展開があり得る。TEIコンソーシアムに日本語SIGが設立されることになったのもこの文脈からのことで、ただ受容しようとしてうまくいかないから終わり、ではなく、グローバル側に対してローカルの要求をきちんとした手続きを経て提示していくことが肝要であると思っている。それは、ローカルにとってのメリットだけでなく、グローバルの価値を高めることにもつながり、結果としてローカルも含めた全体の価値が高まっていくことにもなる。それを理解しているグローバルなコミュニティには、積極的に参加し、協力し、連携していくことが、ローカルのためにも、つまり筆者の場合には、日本のためにも大きな糧になると思っている。

　…というのは技術のグローバル化の話だが、一方で、コンテンツローカルの話として、海外機関で所蔵されている日本資料をうまく統合していくという話がある。海外機関で所蔵されている日本資料が日本から適切に利用できるようになるためには、現在のようにIIIFが急速に普及しつつある状況では、海外の機関がそれぞれに自分のWebサイトから日本資料の画像を公開することになることが想定される。この場合、上述のようなグローバル技術へのローカルの組み込みが重要になってくる。ビューワでのページ遷移の方向などは典型的な話だが、縦書きの表記もそうだ。現状では、いずれもIIIFの問題ではなく、ビューワでなんとかすればよいという話なのだが（それで筆者はMiradorの改造を行ったのだが）、画像を共有するための枠組みであるIIIFは、今後さらに利便性を高めるべく、規格をより深化させてくるかもしれない。その過程で、日本資料に関する事柄がもし抜けてしまっていたら、海外機関で公開される日本資料が適切に扱えなくなってしまうかもしれない。そのようなことにならないように、引き続き規格の進展には注目し続ける必要があるだろう。　

　具体的な実践として、そのようなことに取り組んできたのだが、そうしてみると、やはりどうしても「日本」に行き着いてしまい、それをどうとらえるか、という問題に突き当たってしまうのである。DNAやらゴーストなどがささやいてくれるとよいのだが、そういうわけにもいかず、色々な状況に接しながらあれこれ考えていると、どうしてもアイデンティティが断片化してしまっているような感覚になってしまって、これをなんとかできるといいのだが、と思ってしまうのである。

　というようなことを、漠然と考えながら「デジタルアーカイブ」に取り組んでいる昨今である。まだまだ力不足・勉強不足なことも多く、上述のことも色々修正したり撤回したりすることがあるかもしれないが、基本的には、そのような観点から皆様のお手伝いを続けていけたらと思っている。