日本の古典籍のオープンデータ! その1

日本の古典籍の本格的なオープンデータが公開されたのは今月の上旬。今回の場合、何が本格的かと言えば、その画像の圧倒的な容量である。下記のサイトをご覧いただけば一目瞭然だが、26GBだの30GBだのといったファイルがHTTPでダウンロードできるようになっているのである。
http://www.nii.ac.jp/dsc/idr/nijl/nijl_list.html
もちろん、そんなサイズのファイルをHTTPでダウンロードさせるというNIIの豪気さにも圧倒されるが、P2Pセキュリティポリシー等で禁止している機関もNIIにはぶら下がっているそうだし、anonymous FTPというのもFTPのポートを閉じているところがあるかもしれないと思うと、なんでもHTTPという昨今の情勢をNIIが後押しするようなことも色々な事情から致し方ないことなのだろうかとも思う。

 さて、そんなどうでもいい感想はともかく、とりあえず350点もの日本の古典籍の画像+書誌データ+解題+タグがCC BY-SAで公開されるというのは大変に感動的なことであって、これはぜひ活用せねば…と思って見てみようと思ったら、とりあえず見てみる、というのがなかなか困難な状況であることに気がついた。(というか一目瞭然だが)。

 そこで、とりあえず公開されているデータを一通りざっと見えるようにしてみようかと思うに至った。(ここまで、公開データのサイトを見てから数分で考えたこと)。

 そこで、作ってみたのが「国文研データセット簡易Web閲覧」というサイトである。とりあえず、OpenSeaDragonで画像をぬるぬると拡大縮小できたりとか、サムネイル一覧をざっくり見たりとか、付与された解説やタグが見えるようにしたりとか、タグによる頁間のリンクを張って関連頁をたどれるようにしてみたりとか、見栄えは気にせず、とにかく内容を確認できるようにしている。

 特に、「タグ-頁画像対応リスト」と「タグリスト」は色々活用できると思うので、このままローカルに保存して色々いじっていただいたりするのもよいと思う。特に、「歴史的典籍オープンデータワークショップ」に参加してみようと思っている人は、ぜひ、予習に活用していただきたい。

 というわけで、上記のサイトを作るためにやったことを少しずつ書いていくつもりである。まずはデータのダウンロードである。wgetで一括ダウンロード。容量が大変だが、これは待っていればいいのでOKである。たしか1日で終わったような気がする。

 次に、zipファイルを戻す作業。これも基本的には一括作業。元々tcsh使いだったこともあり、知識が断片的なのでcsh系で
$ tcsh
$ foreach f (*.zip)
> unzip $f
> end

ということをして、あとはひたすら待ち。これも結構時間がかかった。

さて、次に、ビューワやサムネイル一覧のための画像加工をしなければならない。まずサムネイル一覧のための画像加工だが、これもまたcsh系で、サーバに入っているImageMagickを使って(この種の操作は10年前からまったく進歩していないのだが)、
$ tcsh
$ foreach f (*/*.jpg)
> convert -resize 200x $f $f:rs.jpg
> end

とやって、どんどんサムネイル画像を作成していくのである。これもあとはひたすら待ち。

次に、画像ビューア、OpenSeaDragonで表示するためのピラミッドタイル画像の作成。このタイル画像作成のツール色々なものが公開されているが、今回はDZIでpythonのものをダウンロードして、用意したディレクトリを全部読み込んでこのスクリプトを実行していくスクリプトを書いて、あとはひたすら待ち。atコマンドで動かしたが、結局この作業に1週間以上かかった。

というわけで、ピラミッド画像作成が終わったところで、いよいよOpenSeaDragonを使ったサイトの作成に入ったわけだが、それはまた次回に。