『絵入り源氏物語』の分析サイトが公開されたようです:人文系オープンデータの活用事例

昨年11月、「国文研データセット」として、350点のデジタル化古典籍が公開されましたが、このたびは、それに続いて350点が新たに公開され、総計700点となりました。しかも、今回の公開は人文学オープンデータ共同利用センター準備室というまったく新しい組織からで、さらに、IIIF対応の形でも公開されるという、前回に比べてあらゆる面で前進がみられ、大変頼もしくありがたいことです。それについては、詳しくはまた別にブログ記事などにさせていただきたいと思っております。

 

オープンデータで公開する、ということは、第三者に再配布を許可するということであり、それによって様々な利活用を促進するということです。視点を変えると、オープンデータ化を推進するためには、それによって利活用されたという事例が増えていくことが何よりも大切であり、特に、オープンデータ公開した組織・機関が特に労せずともどんどん利活用が広がっていくという事例があれば、なおよいはずだ、と思っています。利活用に際しての交渉というコストを下げることは、公開者側にとってもメリットが大きいはずです。

 

ということで、筆者としては、特に人文学におけるオープンデータの利活用事例を心待ちにしていたのですが、先日、ついに一つ、登場しました。国文研データセット日本古典籍データセットにおける『絵入源氏物語』のテキストデータを統計解析するWebアプリケーション、です。『源氏物語』の統計分析を専門としておられる同志社大学研究開発推進機構の助教の土山玄さんが作成されたサイトであり、先日の人文科学とコンピュータ研究会でのご発表では、まだ試作段階とのことでしたが、オープンデータとして公開されている国文研データセットのテクストデータを多少前処理した上で、国立国語研究所が公開しているWeb茶まめの「中古和文」辞書で形態素解析を行い、統計処理できるようにしたそうです。

 

さて、その結果ですが、『源氏物語』の研究者ではない筆者にはあまり適切な調べ方ができず、いかにも素人な感じで恐縮ですが、たとえば以下のような感じになります。

 

まず、上記の発表のなかで土山さんが紹介しておられた例ですが、「あはれ」の巻ごとの出現頻度は以下のようにグラフ表示されます。

f:id:digitalnagasaki:20161124175850p:plain

「やんごとなし」は第42巻匂宮に突出して多く出現するようです。

f:id:digitalnagasaki:20161124175922p:plain

 

あるいは、「きこゆ」「聞こゆ」という表記の出現頻度を比較すると以下のようになっており、ひらがな表記が全体として多いようですが、いくつかの巻で突出して多くなっているようです。

f:id:digitalnagasaki:20161124175857p:plain

 

こういった結果からすぐに何かを結論づけることはできないと思いますが、何かを調べるためのきっかけとしては有益かもしれません。

 

他にも、巻ごとの品詞の比率や、巻ごとの主成分分析の結果も表示されるようになっています。今後さらに機能が拡充されていくようですので、期待させていただきたいところです。また、他の源氏物語の写本・版本もこういう形で簡単に分析できるようになっていけば、源氏物語も今までとはまた少し違った観点からも楽しめるようになっていくのではないかと思ったところでした。

 

 また、上記の土山さんの発表論文には具体的な作業手順なども公表されていますので、そちらを読んでいただいて、こういったことに取り組んでくる方々がでてきてくださるのも面白いのではないかと思っております。

Mirador2.1を手元で活用(その1)

IIIF対応ビューワ、Mirador2.1は、Javascriptで書かれていて、最近のWebブラウザさえあれば大体動きます。もちろん、ネット上の画像にアクセスしますので、パソコンがネットワーク接続されていないとどうにもならないのですが、つながっていれば、手元のMiradorで各地の画像を表示することができます。先日はこの件で笠間書院さんがツィートしてくださいました。

 

さて、この、ローカルでも閲覧できるという件ですが、Miradorは、お目当ての画像にたどり着くまでが実はちょっと面倒です。IIIFアイコンのドラッグ&ドロップという手法が一応用意されていて、たとえばスタンフォード大学からIIIF対応で公開されている近江國絵圖では、ビューワの左下にある「i」ボタンをクリックすると表示される画像の付帯情報の中にIIIFアイコンがありますので、これをMiradorにドラッグ&ドロップするだけで近江國絵圖の高精細画像を閲覧することができます。

f:id:digitalnagasaki:20161023205753p:plain

 

しかし、世の中にはIIIFアイコンが用意されているものばかりではありませんし、ドラッグ&ドロップも少々面倒です。特に、「これとこれを並べてみせたい!」と思っている時に、いちいちアイコンを引っ張ってきたりドラッグ&ドロップしたりするのは少々不便です。そもそもIIIFのコミュニティはギークが多いので、こういうことができるってだけでおおっ!と盛り上がってしまってさっそくあちこちのサイトにドラッグ&ドロップアイコンがついたりするのですが、少し冷静になってみると、なんだかちょっと面倒なのでは…と思ったり思わなかったり。

 

そこで出てくるのが、Miradorの初期画面設定をいじってしまう、という話です。

 

一応、やり方は本家のサイトにあるので、気合いの入っているかたはそちらをご覧いただけたらと思います。ここでは、とりあえず、「開くと3つのIIIF対応画像が下記のような状態になってくれるHTMLファイル」を作ってみて、やり方をなんとなく知っていただくことを目指します。

 ちなみに下記のものは、フランス国立図書館gallicaの敦煌写本画像と、東京大学総合図書館の萬暦版大蔵経画像、国文学研究資料館の文政年間の木版本を並べているものです。いわゆる「法華経」の冒頭部分の同じテクストに関して、江戸・明・敦煌で作られたものを並べて比較しているものです。

f:id:digitalnagasaki:20161023215403j:plain

 

さて、まずはMiradorのプログラムをダウンロードして手元に展開してみましょう。

http://www.dhii.jp/nagasaki/mirador_practices/mirador2.1.zip

 

そうすると、展開したフォルダの中には、以下のように、Miradorというフォルダとindex.htmlというファイルがあるはずです。まずはindex.htmlをGoogle Chromeで開いてみましょう。

f:id:digitalnagasaki:20161023213045j:plain

 

そうすると「Add item」という文字が真ん中に表示されるはずですので、それをクリックすると、各地のIIIF対応画像がサンプルとしてリスト表示されます。以下のような感じです。

f:id:digitalnagasaki:20161023213551j:plain

いずれも、クリックするとその画像が表示され、その本・あるいはひとまとまりの写真等の資料が頁めくりで表示できるようになります。この中には、海外の機関が登録した日本の資料や日本の機関・組織から登録した画像も含まれていますので、お時間がおありのときにちょっとながめてみてください。

 

しかし、実用段階に入っていくと、こういう各地の画像はあんまり必要なくて、むしろ、自分が使いたい画像がここで表示されてくれるとありがたいように思います。そこで出てくるのが、このindex.htmlファイルの書き換えです。これには、利用したい画像のIIIF manifestファイルが必要になります。まずはIIIF manifestファイルのURLを集めてみましょう。今回は、妙法蓮華経の巻第一にあたる画像を探そうとしていますので、その画像を含むIIIF manifestファイルを探せばよいことになります。Europeanaなどでも探せますので、ちょっと探してみましょうか。

 

………

IIIF manifestファイルの探し方:

フランス国立図書館gallicaの場合、普通に検索してお目当ての画像を見つけたら、たとえば以下のようなURLの場合、「.r=」以下を削除して、「/ark:」の前に「iiif/」と入れると、IIIF manifestファイルになります。Europeana上でみつけた場合、gallica由来コンテンツであれば、Identifierという項目に書かれているものがそれです。

http://gallica.bnf.fr/ark:/12148/btv1b10526554g.r=hokusai?rk=21459;2

http://gallica.bnf.fr/iiif/ark:/12148/btv1b10526554g/manifest.json

IIIF manifestを得るためのもっとスマートな方法があるはずなのですが、残念ながらうまく見つけることができていません…。

 

次に、国文学研究資料館関係の画像については、

国文研データセット簡易Web閲覧

http://www2.dhii.jp/nijl_opendata/openimages.php

国文学研究資料館の館蔵和古書画像のためのテストサイト

http://www2.dhii.jp/nijl_opendata/searchlist.php

などで、IIIF manifestというリンクがありますので、そのURLを持ってくればOKです。

 

さて、とりあえず頑張った結果、下記のIIIF manifest ファイルが入手できました。

http://gallica.bnf.fr/iiif/ark:/12148/btv1b8302822s/manifest.json

http://dzkimgs.l.u-tokyo.ac.jp/iiif/kakouzou/045_1/manifest.json

http://www2.dhii.jp/nijl/kanzo/iiif/200016819/manifest.json

これを、例のindex.htmlファイルに書き込めばOKです。一応、ファイル名をindex2.htmlに変えておきましょう。ファイル名をとりあえずindex2.htmlに変えて保存してから、いよいよ編集です。

 

Miradorの設定箇所はJSON様になっています。まずは、

 

Mirador({
         "id": "viewer",
         "layout": "1x1",

となっているところを探してください。そして、ここの「1x1」のところを「1x3」と変更してみましょう。以下のような感じになります。

Mirador({
         "id": "viewer",
         "layout": "1x3",

 

とりあえず、これで保存して、このindex2.htmlをWebブラウザで開いてみましょう。そうすると、画面が3つに分割されて、それぞれの画面で画像を選べるようになっているはずです。いかがでしょうか?

しかしこのままでは、当初の目的である「見たい画像を表示する」にはまだまだ遠いです。そこで次に挑戦するのは、既存のmanifestファイルの削除と先ほど探してきたmanifestファイルの追加です。

 

index2.htmlの中で、下記のようになっている場所を見つけてください。

 

"data": [
           { "manifestUri": "https://iiif.lib.harvard.edu/manifests/drs:48309543", "location": "Harvard University"},
           { "manifestUri": "https://iiif.lib.harvard.edu/manifests/drs:5981093", "location": "Harvard University"},

 

そうです、ここで、例のリストされるmanifestファイルを規定しています。ここでは、とりあえず

最後の3つを残して上の方から削除してしまいましょう。

 

削除を開始するのは以下の行からです。

           { "manifestUri": "https://iiif.lib.harvard.edu/manifests/drs:48309543", "location": "Harvard University"},

 

そして、以下は、残すべき3つのファイルです。

           { "manifestUri": "http://www2.dhii.jp/nijl/NIJL0018/099-0014/manifest_tags.json", "location": "NIJL"},
           { "manifestUri": "http://digi.vatlib.it/iiif/MSS_Vat.lat.3225/manifest.json", "location": "Vatican Library"},
           { "manifestUri": "http://media.nga.gov/public/manifests/nga_highlights.json", "location": "National Gallery of Art"}
         ],

 

下の方を敢えて残して上から消すことで、ちょっとした、しかしハマりがちなヒューマンエラーを減らすことができるのですが、それはまた別の話としまして、結果として、編集中の箇所の周辺は以下のような状態になっているでしょうか?

        "layout": "1x3",
         "data": [
           { "manifestUri": "http://www2.dhii.jp/nijl/NIJL0018/099-0014/manifest_tags.json", "location": "NIJL"},
           { "manifestUri": "http://digi.vatlib.it/iiif/MSS_Vat.lat.3225/manifest.json", "location": "Vatican Library"},
           { "manifestUri": "http://media.nga.gov/public/manifests/nga_highlights.json", "location": "National Gallery of Art"}
         ],
         "windowObjects": ,

 

ここで、これらの3つのmanifestファイルのURLを、先ほどの3つと入れ替えます。あと、「NIJL」「Vatican Library」「National Gallery of Ar」と書かれているところも、念のため、それぞれのmanifestの画像を公開している機関に書き換えておきましょう。

そうすると、manifestUriの行はそれぞれ以下のようになっているはずです。

           { "manifestUri": "http://gallica.bnf.fr/iiif/ark:/12148/btv1b8302822s/manifest.json", "location": "gallica"},
           { "manifestUri": "http://dzkimgs.l.u-tokyo.ac.jp/iiif/kakouzou/045_1/manifest.json", "location": "UT Library"},
           { "manifestUri": "http://www2.dhii.jp/nijl/kanzo/iiif/200016819/manifest.json", "location": "NIJL"}
         ],

 

さて、これで再び、index2.htmlをWebブラウザで開いてみましょう。いかがでしょうか?3つのウインドウが開いて、

一応、見本のファイルを置いておきますので、うまくいかないときは、こちらのファイルをダウンロードしてHTMLソースと見比べてみてください。

http://www.dhii.jp/nagasaki/mirador_practices/index2.html

 

 しかし、このままですと、やはりファイルの選択をしなければなりません。HTMLファイルを開いた時にいきなり画像が表示されるようにするには、「windowObjects": ,」に設定を書き込む必要があります。では、やってみましょう。

  "windowObjects": ,

この行に注目してください。この の間に書き込む内容が、HTMLファイルを開いた時に表示される内容です。ここでは、まず最初の頁を表示するようにしてみましょう。

 

画像を最初から表示するための記述は大体以下のような感じです。(ちょっと余計なものがありますが、それらはこの後の作業のためです。)

       {
         "annotationState" : "annoOnCreateOn",
         "loadedManifest" :"http://gallica.bnf.fr/iiif/ark:/12148/btv1b8302822s/manifest.json",
         "viewType" : "ImageView",
         "windowOptions": {
          }
        }

これがmanifest一つ分です。これを1セットとして、今回の場合、3セットを、カンマ区切りで書いてみてください。うまくいったら、以下のようになるはずです。

f:id:digitalnagasaki:20161023230451j:plain

 

さて、ここでは、1ページ目が表示されています。ここから頁をめくっていって目的の頁にたどりつく、というのでも、今までよりは確実に楽です。本来表示したい画像は、「見せたい頁の見せたい場所を拡大表示」です。ここからはちょっとマニュアル的な面倒な作業になります。

 この作業は本来自動化可能な部分で、たとえばSAT大正蔵図像部DBのタグ付けシステムでは、これは完全に自動化されていて、見ているページにタグをつけるとそこが検索されて拡大表示されるようになってきます。技術的には、Miradorにもう一工夫するとMirador単体でも実現できる機能のはずなのですが、今のところまだできないようです。時間があればそこら辺の開発に取り組んでみたいと思っていますが、どなたか、我こそはという人は、ぜひ、がんばってみてください。

 

 …ちょっと脱線しましたが、これは、脱線せざるを得ないくらい、ちょっと面倒な作業です。難しくはありません。では、やってみましょう。

 

まず、見せたい頁を表示する、というところからいきます。見せたい頁のcanvas idを探します。

たとえば、

http://gallica.bnf.fr/iiif/ark:/12148/btv1b8302822s/manifest.json

をみてみましょう。典型的なJSONファイルで、階層構造を為しています。このうち、

"sequences" : [ {

/>という行を探してください。ここから下の階層に「canvasが並べられて、canvasの順番が規定されます。canvasの順番は複数設定ができるようなのですが、多くの場合1つしか設定されていないと思います。このすぐ下の階層に

"canvases" : [ {

という箇所があります。この中にリストされている各要素が「canvas」です。各要素の中にはそれぞれ「@id」という項目があります。この@idが、canvasを一意に決めるものです。ここでは、1頁目の画像がほしい、ということは、1つ目のcanvasを指定したい、ということになるので、1つめの@idをコピペしておきます。

"http://gallica.bnf.fr/iiif/ark:/12148/btv1b8302822s/canvas/f1"

さて、次に、http://www2.dhii.jp/nijl/kanzo/iiif/200016819/manifest.json

を見てみましょう。要領はさっきと同じです。ただし、今回は、5ページ目を見たいので、5頁目のcanvas idを探します。探し方のコツとしては「"label"」という項目が各canvasの中にあるのを見つけてみてください。これは、Miradorの画面下部の各サムネイルの下部に表示されているので、それを見比べると割と簡単に見つけられると思います。ただし、labelの値を全canvas同じにしているmanifestファイルもありますので、その場合は別の探し方を考えるしかありません。

 今回は、各canvasごとに異なるlabel値がつけられているようなので

"label": "p. 5",

上記箇所を探すことで、割と簡単に見つけられました。今回のcanvas idは

http://www2.dhii.jp/nijl/kanzo/iiif/200016819/canvas/p5.json"

です。

同様にして、

http://dzkimgs.l.u-tokyo.ac.jp/iiif/kakouzou/045_1/manifest.json

に関してもcanvas idを探してみましょう。

 

さて、canvas idが一通り出そろったら、あとはそれを適切な場所に書き込んでいきます。

この場合、windowsObjects以下の各要素の中に書き込んでいくことになります。ここでは、「loadedManifest」の次に書き込むことにして、この行の最後に「,」を入れて、次の要素として下記のようにcanvas idを記述しておきます。

"loadedManifest" :"http://dzkimgs.l.u-tokyo.ac.jp/iiif/kakouzou/045_1/manifest.json",
"canvasID": "http://dzkimgs.l.u-tokyo.ac.jp/iiifimgs/kakouzou/045_1/pkakouzou/045_1/0009",

これを他の2つの要素に関しても同様にしてみてください。

これがうまくいくと、それぞれの頁が開くはずです。見本が下記にありますので、うまくいかないときはこの頁のHTMLソースをみて検討してみてください。

http://www.dhii.jp/nagasaki/mirador_practices/index3.html

 

さて、いよいよ最後の仕上げです。しかし、これが実は一番ややこしくて、しかも自動化すれば大変簡単になるところです。今度は、

             "windowOptions": {
             }

の中に、位置情報を記述していくのです。たとえば以下のような感じです。

    "windowOptions": {
     "osdBounds": {
       "x": 0.7,
       "y": 0.1,
       "width": 0.2,
       "height": 0.2
       }
     }

ここでは、1を画像の最大サイズとして、0から1の間の数値で画像内の位置を表現しています。xが横位置、yが縦位置、widthが幅、heightが高さ、です。

 

位置情報は、ここでは目分量(笑)でちょこちょこ調整しながらつけました。みなさんもぜひ試行錯誤してみてください。試行錯誤の時間がない人は、下記の完成版を参考にしてみてください。

http://www.dhii.jp/nagasaki/mirador_practices/index4.html

 

ということで、いかがでしたか。Miradorにこの位置情報を拾って最初から表示する機能をつけてくれ…という思いがどうしても先に来てしまいますが(追記:Miradorには、見ているviewを保存するbookmarkという機能があるのですが、手元ではうまく動いたことがありません。これがうまく動くようになれば最後のステップ(あるいはこれらのステップ全体?)は省略できるようになるかもしれないので、どなたか挑戦していただけますとよいかもしれません)、しかし、そんなに数が多くなければ、手でつけてみるのもまた乙なものかもしれません。せっかく、世界中で多種多様な画像がIIIF対応にて公開されているので、こういう活用の仕方も、ぜひ考えて見てください。

 

今後とも、よろしくお願いいたします。

 

 

国文研館蔵和古書画像400万コマ近くがオープンデータに!

 先日、国文学研究資料館(以下、国文研)の館蔵和古書画像がCC BY-SAへとライセンス変更されたことは記憶に新しいところです。筆者としては早速ダウンロードして色々活用できるように…と思って少し試してみたらなかなか大変でした。結果として、19451書誌分の古典籍画像をダウンロードすることができたのですが、書誌情報はオープンデータになっていないので、内容がわかる人でないとなかなか活用は難しいのではないかと思います。この点、昨年「国文研データセット」として公開されたものは書誌情報やタグ、一部の全文テクストなど色々おまけがついていたので楽しみやすいものでした。筆者としても、色々な工夫をさせていただきました。

 しかし、やはり、せっかくオープンデータとして公開されたのですから、これはなるべくみんなで活用できるようにした方がよいと思いました。このところ「デジタルアーカイブ」についての議論が盛り上がっていることもあり、古典籍好きな人たちがデジタルアーカイブについての活用例を色々と出せるようにすることは、古典籍に関わる研究者だけでなく全体にとってもいいことなのではないかということもあり、とりあえず皆が共有しやすい形にしようかと思いました。

 とりあえず、このブログで何度もご紹介しているIIIFに対応する形で公開するのは活用の幅がかなり広がりますので、まずはIIIF対応をさせました。このIIIF Manifestのリストはタブ区切りテクストで公開しております。この件は、さっそく笠間書院が採り上げてくださったので、ありがたいことです。なお、なんでJSONじゃないの?という突っ込みはご容赦ください。JSONであるべきだと思う人はJSONにして再配布してください。

 さて次に、画像のダウンロードです。国文研のデータベースはあんまりダウンロードしやすくないので、ダウンロードしやすいようにしてみました。ポイントは、

  1. 画像のディレクトリ/ファイル番号と書誌情報ID(?)との対応をわかりやすく
  2. 画像のファイル名を固定長で
  3. 1書誌ごとに全画像を1つの頁にまとめる

という3点です。先にテクニカルな話をしておくと、ファイル/ディレクトリの構造はそのままにして、シンボリックリンクをはることで上記のことを実現しています。多分、こうしておくことで、元のリポジトリ上での画像の状況に小変更が生じた時にもそれなりに機械的に対応できると思います。

では、上記の3点をかいつまんで説明していきますと、

「1. 画像のディレクトリ/ファイル番号と書誌情報ID(?)との対応をわかりやすく」というのは、書いているとおりです。おそらく、書誌情報やモノとしての本や周辺物の構造にあわせてディレクトリやファイル番号をつけていった上で、データベース上で順番を管理して表示していたのだと思うので、Webインターフェイスから使うことだけを考えるならこれでよいと思うのですが、画像をダウンロードして使うことを考えた場合、画像にアクセスした時にそのオリジナルのディレクトリ/ファイル番号(ファイル名)が見えてしまっていて、結果として書誌情報との関係や画像の順番がダウンロード後によくわからない、という状態になってしまうようでした。たとえば、何らかの事情で番号が飛んでいる場合、複数の本で構成される一つの本(書誌)のディレクトリの分け方に色々なパターンがある、あるいは、帙の写真があって本文が始まるけど画像番号は帙の写真の方が大きい、など、です。これだと、ダウンロードした時に、Webで見せている順番(=多分国文研でこうあるべきと思った順番)では使えなさそうな感じでした。これは、これまでの国文研のデータベースがダウンロードでの利用を前提としていないのである意味当然のことであるとも言えるのですが、せっかくCC BY-SAでの公開となったのに、ダウンロードした際にうまく使えないとちょっと困るかもしれないので、とりあえず、各書誌情報ID(?)ごとに、画像をぶらさげる形にしてみました。

「2.画像のファイル名を固定長で」というのも、書いているとおりです。特にパソコンに1冊分をダウンロードしたり、複数の本を同じフォルダに保存してみたりした場合、読む順番で画像が並んでいたり、きちんと連番になっていたり、固定長になっていたりすることは、画像を簡単に順番に並べることができるという点で、ライトなパソコンユーザには割と重要なことかと思います。幸いにして書誌情報ID(?)は固定長なので、書誌毎の画像をWebで公開されている順番にならべて、その順番の番号を固定長でつけました。こういうのをPHPでやってしまう人なので sprintf("%05d", $filename); という感じです。結果として、今のところ、3,957,881点(多分重複あり)のすべての画像が「書誌番号ID_5桁の連番.jpg」という風になっています。

「1書誌ごとに全画像を1つの頁にまとめる」というのは、半分、上記1. の話の繰り返しになりますが、たとえばこんな感じで、各書誌ごとに頁を生成して、そこから、その書誌に対応する画像へのリンクが表示されるようにしてみました。

 

 さて、ここまで来たら、今度はIIIF manifestやダウンロード画像を探しやすくする工夫です。といっても書誌情報がオープンデータ化されていない現状では、できることは極めて限られていますが、一応、タイトルで検索できるようにしてみました。いわゆる親書誌と個別の書誌で同じ画像を含んでいる場合もあったり、結果として同じ画像が重複してヒットする場合もあるかもしれませんが、その点はご容赦ください。

 というわけで、とりあえずこんなものを作ってみました。サイトにちゃんとした名前をつけたいような気もするのですが、これはあくまでも本家の国文研サイトでIIIF manifestやダウンロードしやすい仕組みが提供されるまでのつなぎですので、「テストサイト」としています。この仕組みは、以前に国文研データベースの画像を全部チェックして仏典画像を探した時に苦労した点を反映したもので、基本的には、各本へのリンクが一覧表示されている画面からなるべく動かずに色々な情報を得られるように、というものです。

 まず、国デコ(国立国会図書館デジタルコレクション)ではすでに用意されている機能を少し発展させたものとして、少し大きめの頁のサムネイル画像を、頁を指定して一覧表示画面に列挙できるようにしています(たとえば、10頁のサムネイル画像を表示させる、といった具合です)。この機能があると、それぞれの本がどういうものか、ということについての簡単な見通しが得やすくなりますので、ちょっと作業がやりやすくなります。そして、そのサムネイル画像をクリックすると、Miradorで、その頁を拡大表示した形で、その本が表示されます。こうすると、内容の確認に入りやすい上に、Miradorは他の頁に飛ぶ方法が楽なので(頁下部のサムネイル画像をクリックするだけ)、その点でも便利です。国文研のデータベースも新しいものでは部分的にサムネイル画像が用意されるようになってきているようですが、「サムネイル画像は準備中です」となっているものに多く遭遇する上に、一度に閲覧できるサムネイル画像の数が少ないので(これは国デコもなのですが)、微妙に不便です。また、サムネイル画面と個別頁の画面はいちいち別ページを読み込む形になるので、そのたびにビューが切り替わり、さっき見ていたものがわからなくなるのは、たくさん画像を見なければならないときは結構疲れます。Miradorでの、頁拡大画面の下部にサムネイルがリストされる表示方法は、その点、結構楽でありがたいことです。ただ、この点については好みの問題もあるかもしれないので、あくまでも私が便利で楽だと思っている、ということにしておいていただけたらと思います。

 それから、書誌詳細を、ポップアップウインドウに表示されるようにしました。これは、国文研の現在のデータベースでは、新しい頁を開いてしまうのでちょっと大げさです。せっかくGET Methodに対応したのですから、こういう感じで表示してもらえると、視線があまり動かないのでありがたいのです、と思っております。ポップアップでなくても、フレームみたいなものでもいいのですが。

 それに加えて、画像ダウンロードのリンク、Mirador、Universal Viewerへのリンク、IIIFドラッグ&ドロップアイコンなどもご用意いたしました。ここら辺を何らかの使いやすい形で本家でもいずれ用意していただけたらと思っているところです。

 

 オープンデータとして公開されたのに十分に活用されていない、となると、今度はかえってオープンデータ公開の意義が問われることになってしまいかねません。ということを最近いつも心配しております。とりあえずここまでしておけば、簡単なダウンローダを使って持って行って色々試したりすることも比較的容易にできると思いますので、みなさま、ぜひ色々ご活用してみてください。

 それから、この画像をオープンデータ化する決断をしてくださった国文研への感謝の念と参照情報は、常に忘れないようにしましょう。特に参照を明確に・できれば機械可読な形でも提示することは、オープンデータの意義を高めることに割と直接的につながり、他の機関のオープンデータ化を後押しすることにもなると思いますので、ぜひともよろしくお願いいたします。

 

今回新規にご紹介したURL:

http://www2.dhii.jp/nijl_opendata/kanzo_all.txt

http://www2.dhii.jp/nijl_opendata/searchlist.php

 

 

IIIFのための画像サーバ導入記(JPEGのままで/Tomcat編)

IIIF Image API対応画像サーバ Digilib のインストールについてのご紹介

以前に、IIIFのための画像サーバを導入するための方法として、IIP Image serverをご紹介簡易版)しました。多分これが最速なのではないかと思うのでとりあえずご紹介したのですが、一方で、ソースコードからのコンパイルが必要になる上に、jpeg2000かTiled Tiffが必要なので画像の準備が大変、ということがありました。そこで、普通のjpeg画像でも使える上にコンパイルする必要もない、Loris というPythonで書かれたサーバソフトがある、という言及だけはいたしました。とはいえ、Pythonはあんまり速くない上に、インストールに際しての依存関係の解決が結構大変で、どうやったか思い出せないほどだったので(Pythonを普段使いしている人には簡単なことかもしれないのですが)、導入記をご紹介するにはちょっと難しい、という状況でした。

 

しかしながら、「jpeg画像をそのまま使いたい」「ソースコードからコンパイルと言われてもちょっと難しそう」という話を色々な方々からいただきましたので、Lorisのインストール記を書くか、それとも…と悩んだ挙げ句、結局、別の選択肢を試してみることにしました。(この週末はこれともう一つのネタでほぼ終了です)

 

IIIFの公式サイトで紹介されている画像サーバソフトの中にdigilibというものがあります。今回はこれを試してみました。

 

digilibは、Java Servletで動作します。必要な環境としては、Java 1.6以降に加えて、サーブレットコンテナとして、Tomcat 7以降、もしくは、Jetty 8以降が必要だそうです。ただ、Tomcat環境を用意する方法はあちこちに書いてあって、おそらく、ソースコードからコンパイルするといった手順とは要求される作業の種類がだいぶん違っていて、おそらくレンタルサーバ環境でも比較的容易だと思われます。

 

 ここでは、CentOS7 + Apache 2.4 + Tomcat7を前提として作業をしていきます。他のdistribution/OS/サーバソフトを使っている人は適宜読み替えてください。

 

1.Tomcat7環境の用意

 まず、Tomcat7環境を準備します。すでに用意してある人は読み飛ばしてください。サーバ環境が異なっている人は自分の環境にあわせて構築してください。それから、そもそも、この話はあちこちのサイトに親切丁寧に書いてありますので、適当に流して書きます。以下のような感じです。

$ sudo yum install tomcat-*
$ sudo systemctl enable tomcat.service
$ sudo systemctl start tomcat.service
$ sudo systemctl status tomcat.service

これで、tomcatが動作していればとりあえず第一段階はOKです。

次に、tomcatapacheと共存させられるようにします。ajpモジュール、というもので連携できるそうですが、CentOS7のhttpdには最初からついているそうです。

そこで、ajpモジュールの設定ですが、エディタで下記のファイルを作成して

$ sudo vi /etc/httpd/conf.d/tomcat.conf

以下のような内容を記入します。
<Location /tomcat/>
    ProxyPass ajp://localhost:8009/
</Location>

そうしたら、httpdtomcatをそれぞれ再起動します。

$ sudo systemctl restart httpd.service

$ sudo systemctl restart tomcat.service

これでTomcat7環境の準備は多分OKです。

http://サーバのホスト名/tomcat/

にアクセスして確認してみてください。

 

2. digilibの設置

さて、次は設置ですが、これは公式サイトに載ってますので粛々とこれに沿って作業します。

 

まず、インストールするサーバソフトですが、最近も細々修正をしているようなので、こちらから最新版を入手しました。それを

$ cp digilib-webapp-2.4-SNAPSHOT-srv3.war digilib.war

として、

$ sudo mkdir /var/lib/tomcat/webapps/digilib
$ sudo cp digilib.war /var/lib/tomcat/webapps/digilib
$ cd /var/lib/tomcat/webapps/digilib
$ sudo unzip digilib.war

として、

http://サーバのホスト名/tomcat/digilib/digilib.html

にアクセスしてみましょう。ここでたとえばこんな風にdigilibの画像が表示されれば、多分、インストールは成功だと思います。

 

3. digilibで手元のjpeg画像を表示できるように

次はいよいよ、自分の画像を表示できるようにする設定です。

設定ファイルの置いてあるディレクトリに行って

$ sudo cd /var/lib/tomcat/webapps/digilib/WEB-INF

設定のテンプレファイルをコピーします。
$ sudo cp digilib-config.xml.template digilib-config.xml

ここでいったん、デフォルト設定を確認してみましょう。

http://サーバのホスト名/tomcat/digilib/server/dlConfig.jsp

にアクセスしてみると、デフォルト設定が出てきます。とりあえず最低限チェックしておく必要があるのは

basedir-list

/usr/share/tomcat/webapps/digilib/sample-images/

という箇所です。つまり、このディレクトリに置いた画像がdigilibを通じて読めるようになります。ですので、色々いじるのが面倒な場合は、このディレクトリ以下に画像ファイルを置いたりシンボリックリンクを張ってしまったりするという手もあります。

 とはいえ、このままだとなんとなく気になるという人もおられるでしょうから、これを変更する場合は、
$ sudo vi digilib-config.xml

として、

<parameter name="basedir-list" value="ここに画像のあるディレクトリを" />

という風に編集して保存してから、tomcatの再起動です。たとえば、

/var/www/iiifimages/poppo/001.jpg

/var/www/iiifimages/poppo/012.jpg

/var/www/iiifimages/coyking/001.jpg

/var/www/iiifimages/coyking/400.jpg

などとなっている場合、/var/www/iiifimagesが外から見えるパーミッションになっていることを確認した上で、上記のXMLタグの値を

<parameter name="basedir-list" value="/var/www/iiifimages" />

という風にします。そこで、

$ sudo systemctl restart tomcat.service

としてTomcatを一応再起動してから、

http://サーバのホスト名/tomcat/digilib//digilib.html?fn=poppo/012

http://サーバのホスト名/tomcat/digilib//digilib.html?fn=coying/400

にアクセスすると、たとえばこんな感じで、digilibビューワごと表示されます。

 

f:id:digitalnagasaki:20161016185935j:plain

 

この仕組みは、詳しくは公式サイトの解説をご覧いただけたらと思いますが、簡単にご紹介しておきますと、basedirで与えたディレクトリをベースとして、fn=で与えられたディレクトリ・ファイル名を探し出して表示する仕組みです。ただし、拡張子は自動的に探してくれますのでここでは記載しないようにします。また、色々な拡張子の同名ファイルが同じディレクトリに入っているとうまく表示できないのでその点はご注意ください。(私はこれでちょっとハマりました。)

 

さて、これで満足して公開してしまうのも一興ですが、ここでの目標はIIIF Image APIですのでもう少し頑張ります。

なお、ここで画像がうまく表示されない場合は、下記のURLにて設定を確認してみましょう。

http://サーバのホスト名/tomcat/digilib/server/dlConfig.jsp

 

4. IIIF Image APIの設定(どハマりして半日つぶしました)

さて、マニュアルによれば、ここまでできれば、あとはURLの書き方を変えるだけでIIIF Image APIとしてアクセスできるはずです。ポイントは、上記のfn=で指定していたローカルのファイルパスにあたる部分のディレクトリの区切り記号を「/」から「!」に変更する点、それから、「digilib/Scaler/IIIF」というURLがデフォルトになっているという点でしょうか。で、さっそくアクセスしてみたところ、以下のように普通にできたので、

http://candra.dhii.jp/tomcat/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005/1200,1000,500,500/800,/0/default.jpg

http://candra.dhii.jp/tomcat/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005/1200,1000,500,500/400,/0/default.jpg

これをPresentation APIに組込んで、「lorisと速度比較だ!(わくわく)」と試してみたのですが…

拡大画像が表示されないのです。そこで、Google Chromeで「Control+Shift+i」でコンソールを開いて見てみたところ、変なエラーが。このエラーはinfo.jsonにて確認できそうなので見てみると、どうも、画像の@idは本来下記のようになっているべきなのに、

http://candra.dhii.jp/tomcat/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005

 

info.jsonを見る限りでは下記のように「/tomcat」というのが抜けており、
http://candra.dhii.jp/digilib/Scaler/IIIF/nijl!NIJL0048!0110-189102!0110-189102-0005


ビューワ側では拡大画像へのアクセス時にこれを使って分割画像へのアクセスをしようとしてしまうので、分割画像が404 Not foundになってしまうようなのです。
 想像するに、そもそもdigilabはApacheJava Servlet環境を共存させるような使い方を想定せずに作られたのかもしれないと思ったところですが、それはともかく、これをなるべく簡単に解決しないことにはみなさまにdigilabのインストール方法をご紹介するどころの話ではありません。

もちろん、一番簡単な解決方法はソースコードをいじって修正することなのですが、これをやってしまうとみなさまにインストールをご紹介する際の難易度が一気に高まってしまいます。そこで、なるべく普通に設定のみでクリアする方法を考え試行錯誤した結果、以下のような方法が一番簡単そうだというところにたどり着きました。一応、実際にきちんと動作しました。

ApacheのRewirteRuleで /tomcat -> /digilibに飛ばす」

さて、具体的な手順ですが、まず、

$ sudo vi /etc/httpd/conf/httpd.conf

で、apacheの設定ファイルを開いて、下記を追記する。

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteRule ^/digilib(/.+)$ http://サーバのホスト名/tomcat/digilib/$1
</IfModule>

 

そうしましたら、httpdtomcat(念のため、一応)をそれぞれ再起動します。

$ sudo systemctl restart httpd.service

$ sudo systemctl restart tomcat.service

 

これで、私の環境(上述、特にこの件ではApacheのバージョンに要注意)ではうまくいきました。 もしIIIIFビューワでうまく表示できなければ、ブラウザのコンソールを開いてみてCORSのエラーが出てないかどうか確認してみてください。CORSのエラーに関しては、Tomcat側でHeaderをsetできますので、WEB-INF/web.xmlあたりにちょっと追記してみてtomcatを再起動してみるとよいかもしれません。

 

とにかく、Jpeg画像をそのまま使えることはIIIF Image APIの導入にあたって重要な留意事項なのですが、Lorisサーバがあんまりはやくないのとインストールがちょっとややこしいこともあり、ご紹介に躊躇しておりまして、digilibは、TomcatかJettyの環境さえあればあとは割と簡単そうなので、今回ようやくご紹介するに至りました。

 

digilibは、今のところ、Lorisよりもちょっとはやそうな雰囲気ですが、自宅のネット環境があまりよろしくないので、実はよくわからない状況です。とりあえず、digilibが実用レベルかどうか、だけでも結構ですので、試してみた方はお知らせいただけますと幸いです。

 

それから、上記の記述に何か間違いなどありましたらお知らせいただけますと幸いです。

 

ということで、今後とも、よろしくお願いいたします。

 

 

 

 

 

Mirador 2.1 (IIIF対応ビューワ)リリース&日本の古典籍が登載!

IIIF(International Image Interoperability Framework)対応の高機能画像ビューワの代表格の一つであるMiradorのバージョン2.1が、ついに、ようやく、リリースされました。(ダウンロードはこちらが簡単です。このビューワはローカルパソコンにダウンロードしたものでもネット接続されていれば動作します。)

 英語を読むことに支障がない方はぜひ公式ページをご覧ください。開発の中心メンバーは、ハーバード大学の Rashmi Singhal さんとスタンフォード大学図書館のDrew Wingetさんで、プロジェクトを率いているのはスタンフォード大学図書館のStuart Snydmanさんです。開発はGitHub上で行われており、世界中から様々な人が貢献しています。私も若干ですがお手伝いしております。

裏側の諸々はともかく、ユーザから見た今回のリリースの目玉は、

(1)表示している画像の調整機能

(2)より充実したアノテーション機能

の2点かと思います。そして、日本人や日本文化好きな人にとっては、

(3)日本の古典籍が標準サンプルとして登載

というのもうれしいことかもしれません。あと、

(4)インターフェイスの日本語表示

も追加されました。

 

ということで、さっそく、こちらに仮インストールしたMiradorを使って、一つずつみていきましょう。

 まず、最初に開いた画面では下記のようになっているはずですので、臆せず画面の真ん中をクリックしてみてください。

f:id:digitalnagasaki:20160917031800j:plain

 

そうすると、下記のように、各地のIIIF対応サーバから集められたサンプル資料がリストされ、選択&表示できるようになります。そこで、とりあえず、ヴァティカン図書館の画像資料をクリックして開いてみましょう。

 

f:id:digitalnagasaki:20160917031904j:plain

 

デフォルトでは、画面下にページのサムネイル画像が並ぶはずですので、そのなかから適当なページをクリックしてみてください。そうするとそのページの拡大画像が表示されるはずです。ここで、右下の+ーアイコンをクリックすれば画像の拡大縮小ができます。

f:id:digitalnagasaki:20160917032028j:plain

 

ここまでがごく基本的な操作方法です。次に、いくつかの目玉機能を見ていきましょう。

 

(1)表示している画像の調整機能

画像表示ゾーンの左上から2番目にあるアイコンをクリックすると、画像調整用のバーが開きます。ここから、表示中の画像の明度や彩度、コントラストを調整したり、回転させたり、白黒にしたり、といったことができます。

 下図は、画像調整用のバーを表示してから明るさを調節してみています。

f:id:digitalnagasaki:20160917034233p:plain

 

下図は、色反転をしてみています。

f:id:digitalnagasaki:20160917034235j:plain

 

 

(2)より充実したアノテーション機能

画像表示ゾーンの左上のアイコンをクリックすると、アノテーションモードになります。ここで、アノテーションが表示できるようになります。

 さて、アノテーションを表示してみるために、すでにアノテーションがついている画像を開いてみましょう。まず、左上のアイコンにカーソルをあわせるとサブメニューが表示されますので、その中から「新しいオブジェクト」をクリックしてみましょう。

f:id:digitalnagasaki:20160917034416j:plain

 

そうすると、再び、下記のような画面になります。下の方に「唐糸草子」という資料がありますので、これをクリックしてみてください。

f:id:digitalnagasaki:20160917034429j:plain

「唐糸草子」で、テキストのあるページのサムネイルをクリックしてみましょう。そうすると、そのページの拡大画像が表示されるはずです。

f:id:digitalnagasaki:20160917034459j:plain

 

ここで、画像表示ゾーンの左上のアノテーションのボタンをクリックしてみましょう。

f:id:digitalnagasaki:20160917034519j:plain

 

そうすると、下記のように、アノテーションが付与されている箇所が表示され、さらに、カーソルをあわせるとその内容も表示されるはずです。ここでは、カルガリー大学の楊先生が付与してくださった翻刻テクストが表示されています。

f:id:digitalnagasaki:20160917034540j:plain

 

画像や翻刻テクストのクレジット表示は、右上の(i)アイコンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160917034601j:plain

 

さらに、ここでは、自分で新たにアノテーションをつけることもできます。アノテーションアイコンの右側にある「矩形で選択」「楕円形で選択」などをクリックしてから画像上でドラッグすると、アノテーションをつけることが可能になります。ここでつけたアノテーションは、デフォルト設定では自分のWebブラウザに保存されます。LocalStorageという仕組みを用いているので、ブラウザ側にずっと保存されることになります。

f:id:digitalnagasaki:20160917034618j:plain

 

 もし、このアノテーションを他の人と共有できるようにしたければ(Webコラボレーションなどをしたい場合は必要となるでしょう)、サーバにアノテーションを保存できるような設定方法があるようですので、ぜひどなたかお試ししてみてください。

 

(3)日本の古典籍が標準サンプルとして登載

 すでに上でみていただいたように、「唐糸草子」の翻刻テキスト付きのものが標準サンプルとして登載されています。これは、国文学研究資料館が「国文研データセット」として公開したものを筆者のWebサイトにてIIIF対応で公開し、さらにそれに、カルガリー大学の楊先生がWebコラボレーションシステムを用いて翻刻テクストをつけてくださったものです。

 それから、SAT大正蔵図像DBが公開している曼荼羅画像も登載されています。

 それに加えて、スイスのバーチャル写本図書館、e-codiesが奈良絵本の画像を提供してくれています。これも大変ありがたいことです。

f:id:digitalnagasaki:20160917034630j:plain

(4)インターフェイスの日本語表示

 これは筆者がとりあえずやってみたものですが、より適切な訳し方がありましたら、ぜひご提案ください。

 

なお、Mirador 2.1では、ページの表示方向が左から右のみとなっております。日本語資料や東洋の資料では、右から左に書いていくものも多く(特に縦書きの資料で)、ページの表示方向も右から左となっていてほしいところです。これについては、次期のマイナーアップデートであるversion 2.1.1で対応予定とのことです。筆者は、必要に応じて右から左に表示方向を切り替える機能を組み込んだMiradorの改良版を開発して使っておりますが、もう少し待てば、本家の正式版にてきちんと実現できるようになるそうです。

 

それから、Miradorの複数画像並置機能の使い方のサンプルとして、Miradorもビューワの一つとして採用している「国デコImage Wall」の使い方をざっとみていただく動画を作成しました。お時間がございましたらぜひこちらもご覧ください。

 

www.youtube.com

 

ということで、IIIFとMiradorがもたらすWeb高精細画像が共有された世界の一端を、ぜひお試しください。

 

国デコ(国立国会図書館デジタルコレクション)の使用感を今更ながら…

国デコ(国立国会図書館デジタルコレクション)を常日頃大変活用させていただいており、国立国会図書館の中の人達が色々努力と工夫を重ねてきておられるということはよく認識しております。その上での話なのですが、ここしばらく、国デコをかたっぱしから見ていくという作業をしていたので、そこでちょっと気になった点をいくつかメモしておきます。

 

すでに多くの人が感じていることであり、ほとんど(あるいはすべて)中の人も認識しておられることだろうと思うのですが、次回のシステム更改の際などにご検討いただけますと幸いです。

 

1. 出版(刊行)年の取り方がどうもよくわからない…?

 issued:W3CDTFのデータをみると、西暦で出版年を取ることができます。しかし、0で終わっているものの場合、その年代で詳細が不明な場合、issuedを見ると[18--]などとなっており、その-をissued:W3CDTFでは0に変換しているようです。これの典型的な例は1000年で、インターネット公開資料だけで6021件もあるようなのですが、実際、1000年を見てみると、江戸時代のものとしか思えない大変きれいな浮世絵のようなものも表示されたりします。これはissuedを見ると[1---]となっており、2千年紀であること以外わからない場合につけられている場合があるような雰囲気です。しかしながら、issuedには必ずしも西暦が入っているとは限らず、ここは色々な書き方がなされているようでもあります。検索APIで500件までとれるのでちょっと見てみたところ、以下のような感じです。それぞれの書き方に対して登場件数もつけてみています。

 

なし?: 100
乾隆: 15
乾隆刊: 3
元刊: 1
光緒: 4
光緒刊: 8
光緒寫: 2
光緒石印: 12
古寫: 1
嘉慶刊: 55
奈良室町寫: 1
奈良寫: 1
宣統刊: 1
室町刊: 2
室町寫: 5
弘治12序刊萬暦補刊: 8
明刊: 7
明寫: 8
朝鮮刊: 3
朝鮮刊補配活字印: 1
民國: 1
江戸: 1
江戸刊(鹿角山房藏版): 14
江戸刊: 9
江戸初期寫: 5
江戸寫: 29
江戸木活字印: 3
江戸活字印: 1
清刊: 20
清初刊: 6
清寫: 4
清寫,附江戸寫: 23
萬暦刊: 3
道光光緒刊: 8
道光刊(世楷堂藏版): 1
鎌倉中期刊: 1
鎌倉刊: 8
[1---] [写]: 157
[1---] [寫]: 7
[1---]: 47
[室町-明治時代] [写]: 1
室町時代] [写]: 2
室町時代]: 1
[平安-室町時代] [寫]: 2
[康煕]: 1
[明刊]: 2
[江戸時代] [写]: 2
[江戸時代]: 1
鎌倉時代] [写]: 1
[高麗]刊: 1
 

こうして見てみますと、せっかくこういう情報を書いていただいているので、ここから「範囲」の情報などを入れていただくとか(というのはちょっと大変過ぎるかもしれませんが)、あるいは、書き方をある程度統一してみていただくとか、表示結果が統合されているようにラッパー的なものをかましていただくとか、何かしていただけるとありがたいなあ、と思ったところでした。(おまえがやれ、と言われそうでもありますが…)しかし一方で、納税者としては、ここにあまりお金をかけすぎても困るとも思っておりますので、何か良い案配の対策を見つけていただけたらと思っております。あと、少なくとも、ここにどういう語彙が用いられているのか、というリストもあるとありがたいなあ、などと思ったりもしております。ぱっとみて気になるのは、たとえば、

>江戸寫: 29

>[江戸時代] [写]: 2

>明刊: 7

>[明刊]: 2

あたりでしょうか。少なくとも2系統あるような感じとも言えるでしょうか。入力時期の違いによるのかもしれませんね。検索APIの制約で500件しか採れてないので、残りの5500件程がどうなっているかわからないのですが…

 いずれにしましても、ここら辺を、私のようなDIYプログラマにも使いやすいように整備していただくのは、NDLのデータが幅広く活用されるようになっていく上でもとても重要なことかと思いますので、ぜひ前向きにご検討いただけたらと思います。

 

2. 読み進める方向とカーソルキーやサムネイルの並びが?

 おそらくは近代デジタルライブラリー由来であろう書籍資料は、サムネイル一覧を表示したときに左から右にサムネイルが並びます。さらに、ページを繰っていく時も、「⇒を押すと次ページ」です。縦書き資料の場合、カーソルキーと読んでいく方向が逆になってしまうので、ちょっとわかりにくい感じになってしまっています。カーソルキーに関しては、「古典籍資料」でも同様です。特に古典籍資料の場合は、縦書きがきわめて多いので、「⇐を押すと次ページ」という風になっているといいのかなと、さらに言えば、縦書き横書きのフラグをたてるなり自動認識を試みてみるなどして、縦書きと横書きで方向を変えられるといいのではなかろうかと思っております。

 そして、これに関連した困った問題として、サムネイル一覧の表示については、古典籍資料はちゃんと右から左に並んでいて、しかし、上述のように、古典籍資料でないものは左から右、という風になっています。近デジ/古典籍資料で対応が別れているのかもしれませんが、実際には、一つの検索語で検索して色々な時代の資料がヒットしたりすると混在するものを見ていくことになるので、これはなかなか頭の切り替えが難しいです(年のせいかもしれませんが)。この点でも、やはり、読んでいく方向に全体的にあわせる、といったような対応が期待されるところです。

 

3. 「著作権保護期間満了」と「文化庁長官裁定」を区別して検索できない(ような?)

 教材やその他、再利用を前提として国デコ資料を探す機会は結構あると思うのですが、文化庁長官裁定により公開されている資料だと、再利用に結構な制限がかかるのではないかと思います。ですので、検索の時点で除外してもらえるとありがたいのですが、私の使い方だと(見落としているだけだといいのですがもしそうなら見落としにくいようにわかりやすくしていただけるとありがたいです)、「インターネット公開資料」以上の絞込ができないので、各資料のページを開いてからいちいち確認していますがたまに見落としてしまって、あれれ、という風になります。

 なお、先日中の人におうかがいした際に、「APIでは区別できるようになっている」とおうかがいしたのですが、検索APIでの区別の仕方をうまく見つけられずにおります(というか、インターネット公開か館内限定か、というフラグもうまく見つけられておりません)。各資料のURLにアクセスすると、dcterms:rightsとかdcterms:accessRightsなどでアクセスできるようなのですが、検索APIでの500件上限という制約もありますので検索APIで絞込みできるとありがたいなあと思っているところなのです。いずれにしても、まだ自分では最新版のAPIを確認しきれていないのですが、できるなら、ぜひ確認して適用したいと思っております。また、一方で、国デコ検索ページでも、保護期間満了と裁定を区別できるように(あるいはそれがわかりやすいように)していただけるとありがたいです。

 

4. サムネイル一覧はもうちょっとたくさん出てくれるとありがたいです。

 これについては、これ以上申し上げることはありません。

 

他にもいくつかあったような気がするのですが、今夜飛び込みで入った仕事に注力していたら忘れてしまいました…。

 

それから、2.や4.に関しては、 このブログで何度かご紹介しているIIIFを導入していただければ基本的には解決できますので、その意味でもぜひご検討いただけたらと思っております。導入だけなら無料でできますので、ぜひともよろしくお願いいたします。

Crowd4u+翻デジ+IIIF⇒国デコImage Wall お試し版~NDLのデジタルコレクションを図像から見ていくサイトです

このたび、筑波大学の森嶋研究室によるCrowd4uプロジェクトと日本デジタル・ヒューマニティーズ学会による翻デジプロジェクトが連携して、

国デコ Image Wall お試し版 (あるいは、国デコ・ウォール

http://lab.ndl.go.jp/dhii/kunidecoview/

というものが暫定的に開設されました。ちなみに、「国デコ(くにでこ)」というのは、国立国会図書館デジタルコレクションの略称として一部で使われている名称です。

 

Crowd4uプロジェクトと翻デジプロジェクトでは、これまで、国立国会図書館近代デジタルライブラリー⇒デジタルコレクションのデジタル化資料を対象とした、2つのマイクロタスク・クラウドソーシングに取り組んできました。一つは、OCRによって識別した文字を人の目で見て正しいかどうか判定するものです。そして、もう一つは、「ページの中に図表や絵などが入っているかどうか」を人の目で判定するものです。後者は比較的単純なタスクなので、簡単に取り組める仕組みを用意して(これについては森嶋研究室からいずれご紹介があると思います)、「図表や絵の入っている国デコ資料のページの永続的識別子」をひたすら集め続けました。それをまとめてFlickrに載せてしまうという手もあるのですが、とりあえず、まずは手元で色々できるようにしてみようということで、自サイトに簡単な仕組みを構築しました。下記のようなページです。

 

f:id:digitalnagasaki:20160808023315j:plain

 

f:id:digitalnagasaki:20160808015011j:plain

 

目的は、とにかく、絵や図から見ていくことで、文字で探すこととは少し違った視点から新しい発見を得られないかということです。画像は毎回ランダムに表示されますので、刊行年を示すスライダーと、キーワードによる絞り込み機能を使って色々絞り込みつつ、毎回配置の異なる画像群を見ていく形になります。気になる画像があったらクリックすると、下記のように画像がある程度拡大表示されて、目次があれば目次が表示されて、当該画像が含まれる章や節のタイトルが赤字で表示され、さらに国デコの当該ページへのリンクと、IIIF対応ビューワへのリンク、さらに、IIIF Manifestが表示されますので、適宜選んでいただく形になります。

 

f:id:digitalnagasaki:20160808015610j:plain

 

国デコの書誌情報にすべて依存していますので、下記のように目次情報がない場合も結構あります。

f:id:digitalnagasaki:20160808020025j:plain

 

 リンク先にはIIIF対応のUniversal Viewerも用意していますので、たとえば、Viewerの左下のアイコンをクリックすることで下記のようなURLを取得して誰かに送付し、同じページの同じ箇所を拡大表示して見てもらうこともできます。

http://universalviewer.io/?manifest=http://lab.ndl.go.jp/dhii/iiif/1939384/manifest.json#?cv=11&c=0&m=0&s=0&z=0.4401%2C0.117%2C0.6723%2C0.4177

 このURLだと下記のような形で画像が表示されるはずです。

f:id:digitalnagasaki:20160808020258j:plain

 

あるいは、Miradorで一手間かければ、以下のような感じであちこちに登場する児雷也を比べて見てみることもできます。

 

f:id:digitalnagasaki:20160808022146j:plain

 

もちろん、普通に本として見ていったりすることもできますし、Miradorを使えば画像上にタグ付けをすることもできます。ぜひご活用ください、というほどのものではありませんが、何の折りに時々見ていただけると、だんだん画像が増えていく予定ですので、いつか、面白いものに出会えることがあるかもしれません。

 

今後の課題としましては、まだ画像数がそれほど多くないので、画像を増やしていくのが、まずなんといっても重要課題です。これは、徐々に増えていくと思います。

 それから、閲覧検索機能も、現段階では、ごく基礎的な機能しかありませんので、今後色々発展していくなかで、目的や使い方も変っていくかもしれません。特に、Miradorの開発がかなり進みつつありますので、それにあわせて結構便利になるかもしれません。

 

それと、技術的な事柄についても簡単に書いておきますと、とにかく、国デコのデータを引っ張り出して活用、これに尽きます。

 IIIF対応は、IIP Image Serverという、このブログでご紹介したことのある画像配信サーバソフトを導入し、国デコのJPEG画像からImageMagickのconvertコマンドでピラミッド型タイルTIFF画像を作成し、国デコのWeb APIを利用して書誌情報をとってきて画像ファイル情報とあわせて最低限の内容のIIIF Manifestファイルを作成するプログラムを書いて、あとは自動です。

 国デコImage Wallの方は、Jquery UIのSliderを利用して刊行年による絞り込みをできるようにして、JqueryプラグインであるLazy Loadを使うことで大量画像読み込み時のサーバ・クライアント・ネットワークの負荷を低減させています。サムネイル画像や少し大きな画像の生成は、IIIF Image APIで行っています。以下のような感じです。

サムネイル:

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!300,220/0/default.jpg

少し大きな画像:

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!800,600/0/default.jpg

 

あとは、書誌情報や目次情報の表示の際にも、上記と同様に、しかし今度はJqueryを利用して国デコのWeb APIにアクセスして必要なデータを取得しています。なお、目次の該当箇所を赤地にしているのは、目次の各章・節に画像番号がついているのでその画像番号と対応する識別子とを比較して、該当するものを検出して赤字にしているだけです。これも国会図書館が頑張って目次情報に画像番号まで付けてくれているおかげなので、ありがたいことです。

 

さて、最後になりますが、Crowd4u+翻デジでは、マクロタスク・クラウドソーシング・デジタル翻刻という取組みも進めてきております。これも、もう少し時間がかかりそうですが、いずれ公開いたしますので、もうしばしお時間をください。