Crowd4u+翻デジ+IIIF⇒国デコImage Wall お試し版～NDLのデジタルコレクションを図像から見ていくサイトです

このたび、筑波大学の森嶋研究室によるCrowd4uプロジェクトと日本デジタル・ヒューマニティーズ学会による翻デジプロジェクトが連携して、

http://lab.ndl.go.jp/dhii/kunidecoview/

というものが暫定的に開設されました。ちなみに、「国デコ（くにでこ）」というのは、国立国会図書館デジタルコレクションの略称として一部で使われている名称です。

Crowd4uプロジェクトと翻デジプロジェクトでは、これまで、国立国会図書館近代デジタルライブラリー⇒デジタルコレクションのデジタル化資料を対象とした、２つのマイクロタスク・クラウドソーシングに取り組んできました。一つは、OCRによって識別した文字を人の目で見て正しいかどうか判定するものです。そして、もう一つは、「ページの中に図表や絵などが入っているかどうか」を人の目で判定するものです。後者は比較的単純なタスクなので、簡単に取り組める仕組みを用意して（これについては森嶋研究室からいずれご紹介があると思います）、「図表や絵の入っている国デコ資料のページの永続的識別子」をひたすら集め続けました。それをまとめてFlickrに載せてしまうという手もあるのですが、とりあえず、まずは手元で色々できるようにしてみようということで、自サイトに簡単な仕組みを構築しました。下記のようなページです。

f:id:digitalnagasaki:20160808023315j:plain

f:id:digitalnagasaki:20160808015011j:plain

目的は、とにかく、絵や図から見ていくことで、文字で探すこととは少し違った視点から新しい発見を得られないかということです。画像は毎回ランダムに表示されますので、刊行年を示すスライダーと、キーワードによる絞り込み機能を使って色々絞り込みつつ、毎回配置の異なる画像群を見ていく形になります。気になる画像があったらクリックすると、下記のように画像がある程度拡大表示されて、目次があれば目次が表示されて、当該画像が含まれる章や節のタイトルが赤字で表示され、さらに国デコの当該ページへのリンクと、IIIF対応ビューワへのリンク、さらに、IIIF Manifestが表示されますので、適宜選んでいただく形になります。

f:id:digitalnagasaki:20160808015610j:plain

国デコの書誌情報にすべて依存していますので、下記のように目次情報がない場合も結構あります。

f:id:digitalnagasaki:20160808020025j:plain

リンク先にはIIIF対応のUniversal Viewerも用意していますので、たとえば、Viewerの左下のアイコンをクリックすることで下記のようなURLを取得して誰かに送付し、同じページの同じ箇所を拡大表示して見てもらうこともできます。

http://universalviewer.io/?manifest=http://lab.ndl.go.jp/dhii/iiif/1939384/manifest.json#?cv=11&c=0&m=0&s=0&z=0.4401%2C0.117%2C0.6723%2C0.4177

このURLだと下記のような形で画像が表示されるはずです。

f:id:digitalnagasaki:20160808020258j:plain

あるいは、Miradorで一手間かければ、以下のような感じであちこちに登場する児雷也を比べて見てみることもできます。

f:id:digitalnagasaki:20160808022146j:plain

もちろん、普通に本として見ていったりすることもできますし、Miradorを使えば画像上にタグ付けをすることもできます。ぜひご活用ください、というほどのものではありませんが、何の折りに時々見ていただけると、だんだん画像が増えていく予定ですので、いつか、面白いものに出会えることがあるかもしれません。

今後の課題としましては、まだ画像数がそれほど多くないので、画像を増やしていくのが、まずなんといっても重要課題です。これは、徐々に増えていくと思います。

　それから、閲覧検索機能も、現段階では、ごく基礎的な機能しかありませんので、今後色々発展していくなかで、目的や使い方も変っていくかもしれません。特に、Miradorの開発がかなり進みつつありますので、それにあわせて結構便利になるかもしれません。

それと、技術的な事柄についても簡単に書いておきますと、とにかく、国デコのデータを引っ張り出して活用、これに尽きます。

　IIIF対応は、IIP Image Serverという、このブログでご紹介したことのある画像配信サーバソフトを導入し、国デコのJPEG画像からImageMagickのconvertコマンドでピラミッド型タイルTIFF画像を作成し、国デコのWeb APIを利用して書誌情報をとってきて画像ファイル情報とあわせて最低限の内容のIIIF Manifestファイルを作成するプログラムを書いて、あとは自動です。

　国デコImage Wallの方は、Jquery UIのSliderを利用して刊行年による絞り込みをできるようにして、JqueryのプラグインであるLazy Loadを使うことで大量画像読み込み時のサーバ・クライアント・ネットワークの負荷を低減させています。サムネイル画像や少し大きな画像の生成は、IIIF Image APIで行っています。以下のような感じです。

サムネイル：

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!300,220/0/default.jpg

少し大きな画像：

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!800,600/0/default.jpg

あとは、書誌情報や目次情報の表示の際にも、上記と同様に、しかし今度はJqueryを利用して国デコのWeb APIにアクセスして必要なデータを取得しています。なお、目次の該当箇所を赤地にしているのは、目次の各章・節に画像番号がついているのでその画像番号と対応する識別子とを比較して、該当するものを検出して赤字にしているだけです。これも国会図書館が頑張って目次情報に画像番号まで付けてくれているおかげなので、ありがたいことです。

さて、最後になりますが、Crowd4u+翻デジでは、マクロタスク・クラウドソーシング・デジタル翻刻という取組みも進めてきております。これも、もう少し時間がかかりそうですが、いずれ公開いたしますので、もうしばしお時間をください。