2016-03-09

本日、第4回 SPARC Japan セミナー2015 「研究振興の文脈における大学図書館の機能」に参加する予定なのですが…

本日、第4回 SPARC Japan セミナー2015 「研究振興の文脈における大学図書館の機能」に参加する予定なのですが、もう本当に仕事が立て込んでいて、行けるかどうか定かでないので、とりあえず質疑応答の時間があったら聞いておきたいことを先に書いておくことにする。

もちろん、概要や講演要旨にすべてが書かれているわけではないと思うので、実際に参加してみなさまのご講演を拝聴することができたなら、特に質問などする必要もないという状況になるかもしれない。それも踏まえつつ、一応、考えを整理しておくために書いておくと、

聞いてみたいことというのは、かいつまんで言えば、「研究振興の文脈における大学図書館の機能」というタイトルで、「本（古典籍・貴重書等も含む）」が論点として全然出てきていないように見えるのだがそれで大丈夫だろうか、という点である。「本」と、そのデジタル化・デジタル化されたものも含めた活用を通じた研究振興というのは、そのほとんどは人文社会科学系が相手になるので、今のところすぐにはあまりお金にはならないし、図書館の皆様のこれまでのご経験からすると、もしかしたらややこしいことも多いのかもしれない。しかし、そこを外してしまったら、そもそも図書館である必要がなくなってしまうのではないか、というのが若干気になるのだ。

もちろん、図書館という枠に拘泥せずに、その期待される本来的な機能（であると思われる）研究振興という原点（だと思う）に戻って考えて見ると、多分このような絵になるのだろうと思う。学術情報流通にも少し関心を持っている身からしても、それ自体には特に異論がない。

とは言え、人文系研究者としては、依然として「本」は様々な局面で重要だし、そこをデジタルも含めてこれまで以上に効率的に扱えるようにすることに取り組んでいただければ、それもまた立派な研究振興だと思う。そして、そこに一番近いのは大学図書館だと思っているし、まだ、機関リポジトリよりは「本」の方が近いのではないかと思う。機関リポジトリを辞めて欲しいと言っているのではなく、それはそれでむしろどんどん頑張っていただきたいのだが、しかし、「本」からわざわざ距離を取ってしまうようなことになってしまうと、これまでそれなりに有してきた大学図書館のアドバンテージを手放してしまうことになりはしないか。大学図書館が困ってしまうというだけなら問題ないようにも思えるが、比較的公益性の高い枠組みの中で割と重要な役割を比較的容易に果たし得るプレイヤーが、その役割を離れて、むしろより困難なところにばかりリソースを注入していってしまうのだとすると、それはやはり社会的な損失だと言わざるを得ないようなことではないだろうか、とも思う。

こういうときに海外の話をすると出羽守などと言われてあまり喜ばれないことも多いのだが、それでも、まだ国内にはあまり強い事例がなさそうなので（この方面は勉強不足なので、あったらぜひ教えていただきたく…）、敢えてちょっと書いておくと、たとえば、HathiTrustみたいに、大学図書館連合でデジタルリポジトリを作ることができれば、人文社会科学系研究にとっては大いに振興になる上に、図書館の存在意義も改めて確認されることだろう。2ヶ月ほど前には東京大学でHathiTrust研究センターの所長さんを招いての国際シンポジウムが開催されていたが、その折には、HathiTrustのデジタル化資料を活用する研究のために研究センターに世界中から研究者が集っていてかなり大がかりなことになっている様子が紹介されていた。これを読まれるような方には釈迦に説法だと思うが、HathiTrustでは、著作権保護期間中の本でもデジタル化・テキストデータ化して、統計情報のみを扱えるようにするという形で研究環境を提供していて、これもまた大きな研究振興につながっているようである。（著作権が切れていない大量の本のテクストデータが、たとえそのまま扱えないにしても、統計処理できるのだとしたら、それだけでも相当に色々な可能性が拓けてくることだろうと思うとうらやましいことである）また、大学図書館連合と言えば、EEBOやECCO等の商用データベースコンテンツのテキストデータを作成共有して最終的にパブリックドメインで公開するプロジェクトTCP (Text Creation Partnership) は、欧米中国の150以上の主に大学図書館が参加している。TCPなどは、当事者達がどれくらい意識しているかはわからないが、まさにオープンデータ・オープンサイエンスの流れに沿ったものになっていると言えるだろう。

　一方、たとえばコロンビア大学の図書館では、人文学研究を支援するための活動が図書館司書達によって割と活発に展開されているようなのが、そのサイトにこんな一節がある。

データベースや高価なソフトウェアを提供するという図書館の役割が個々の研究者にとって大変重要であることは明らかなのだが、一方で、我々は現在、自分自身の手でデータベース（にデータ）を追加したりソフトウェアを開発したりすることや、一般の人々と共同での研究を試みること、そして、新たな方法でデータを収集し共有することに興味を持つようになる研究者の数が増えてきているということについて責任を負わなければならない。

これは人文学系の専門司書による仕事なので、日本だとそのまますぐに持ってくることは難しいとは思う。しかし、日本でも、こういう観点での研究振興のニーズは徐々に出てきているし、それをすくい上げるのに大学図書館はかなり近くて有利で、その固有性を活かせるかもしれないところにいるのではないかという気がする。

もちろん、大学図書館のことをよく知らないままに書いていることなので、まったく的外れだったら申し訳ないことだが、そのようなことで、今回、研究振興の文脈における大学図書館の役割、という風に風呂敷を広げるなら、そちらの方への配慮についてどうお考えなのか、時間があれば少しおうかがいできたらと思っている次第である。（しかし今日は打ち合わせが多いので結局おうかがいできない可能性もあるが…）

2016-02-28

D3.jsとIIIF。まだ相互連携してませんが（日本の古典籍のオープンデータ！その３）

IIIF

日本の古典籍のオープンデータのお話、ずいぶん間が空いてしまいましたが、その間、何もしてなかったわけではありません。ちまちまと開発を続けておりまして、しかしご報告を書く時間がなかなかとれないという状況でした。

今も、他にも色々しなければならないことがあるのですが、本件を少しまとめて発表しようと思うようになったので、その前段階としてちょっと近況をご報告します。主に、D3.jsを組み込んだという話と、国際的に流行しつつあるデジタル画像流通プロトコル、IIIFに対応させてみた、という話です。

D3.jsの組み込み

ということで、まず、D3.jsを組み込んだ、「タグ連想検索」を作りました、という話です。名前がちょっと仰々しいですが、要するに、関連しそうなものを連想的にたどっていけるようにする、というものをテキストデータとリンクで表示するようにしていたのですが、それをD3.jsに読み込ませるようにしただけのものです。ただ、組み込むにあたり、D3.jsのサンプルをちょっと修正して使っています。修正したのは、各ノードの大きさを個別に変更できるようにしたという点です。あとはほぼそのまま使っていると思います。

f:id:digitalnagasaki:20160229082935j:plain

　私のようなDIYレベルのプログラマの場合、D3.jsを組み込むポイントは、

サンプルにあるjavascriptやcssのファイルをとにかくそのまま組み込んでみる。
とにかくうまく読み込ませることができるJSONデータを生成する

という２点かと思います。これだけで色々面白いものを作れてしまうというのがD3.jsの素晴らしいところだと思います。

　実は、このサンプルはしばらく前から別のシステム（ITLR等）で使っていて、これを使った最初の発表は、多分、2014年の夏、ウィーンで開催された国際仏教学会、ITLRのプロジェクトを紹介した時だったのではないかと思います。その後いくつかのシステムで利用してみながら、課題の一つとして、ノードのサイズと線の太さを変えられるようにしなければ…ということを感じておりました。今回の「タグ連想検索」では特にノードのサイズが重要だったので、これだけはなんとかしてから公開、と思っていたので、少し時間をかけてしまいましたが、まあなんとか実現できました。これに読み込ませるJSONデータもあわせて形式を修正しています。

　「連想」と言っていますが、今回は、元データの関係上、それほど複雑なことをしているわけではありません。タグは１つの頁に複数登場しているものもあれば１つしかないものもあり…というような状況で、何らかの関係を記述するのはなかなか難しい状況です。今回の場合、同じ頁に登場するタグ同士は関係が深く、隣の頁に登場するタグは深くないけど関係があり、さらにその隣の頁に登場するタグはもう少し浅い関係があり…ということで、５頁以内に登場するタグは関係があるかも、という前提で関係データを作りました。

　作成した関係データは、いったんデータベースに入れておいてインデックスをはって高速に検索できるように用意しておき、ユーザから検索クエリが来たらそれにあわせて、適宜、適切なデータを取り出してJSONデータ化する、という風にしています。（最初は、システムの移植可能性を考慮してテキストファイルを毎回開いて検索するようにしていましたが、どうにもデータ取り出しに時間がかかってしまうので、諦めてデータベースを使うことにしました。）関係データをJSONデータ化するにあたっては、まず、計測した結果を連想配列として整理し、その後、連想配列をJSON形式に変換するPHPの関数を使ってJSONデータに変換するという手順になっています。なお、PHPではオブジェクトからJSON形式に変換することもできるようなので、若者はオブジェクトを使うとよいのではないかと思います。

　とういわけで、あとは、以前に作ったタグ検索システムをちょっと組み合わせて、ノードをクリックすればタグ検索結果が表示される、というものも組み込んで、まあ大体ここまで来ています。あと１つ２つ、機能を追加したいのですが、まだちょっと手が回りません。

あと、根本的な問題として、タグと画像頁との対応がちょっとずれてしまっているところがあるようで、今後はそこの精度を上げるというか、ずれが生じないようなタグ付与を期待したいところです。

IIIFへの対応

　IIIF（トリプルアイエフ, International Image Interoperability Framework, 国際画像交換フレームワーク）というのは、名前の通り、Web上でデジタル画像をやりとりする際の国際的な枠組みです。簡単に言うと、サーバ側の負担を大幅に増やして、クライアント（Webブラウザ）側から簡単に画像にアクセスできるようにしようという枠組みです。IIIFのルールに従ったURLをサーバに渡すと、サーバは画像を加工（切り出し・回転・サイズ変更など）してクライアント側に返してくれます。

　IIIFには、スタンフォード大学がかなり力を入れているようですが、コミュニティ参加機関を見る限りでは、重要機関の多くが参加するようになってきているようで、これに（も）のっておかないと後で大変になってしまうのではないかという感じがあります。個人的に、おおっ、となった参加機関としては、オックスフォード大学ボドリアン図書館、フランス／オーストリア／デンマーク／ニュージーランド／ノルウェイ／イスラエル／セルビア／ウェールズ国立図書館、英国図書館、Europeana、DPLA、ウェルカムトラスト、テクストグリッド、あたりですが、他にも色々な有名関係機関が名を連ねています。（まだメジャーなところのすべてではない、ということにも注目しておきたいところですが、もちろん、参加機関に名を連ねなくてもこれに対応することはできます）

　ちなみに、1年ほど前に参加したパリでのEuropeana Techでこれをよく知る機会を得たのですが、すでに当然のものとして語られていて、当時すでにプロトコルはバージョン2となっていました。最近は、デジタル・ヒューマニティーズ関連の会議でもちょこちょこ出てくるようになっています。基本的に、画像方面は疎いので、ふむふむ、と思って翌月には自分のところでちょっとサーバを動かしてみたりしました。下記、2015年12月にDigital Humanities in Japanという　Facebookのグループに掲載したものに若干手を加えて再掲します。

　IIIFについてもう少し具体的に見ていきますと、基本的には、

(1)画像を表示する際にURLで画像の表示形態を指定するルール（image API）
(2) (1)を前提として画像のメタデータを効率的に共有するルール（presentation API）

から成っているようです。たとえば、

先日スタンフォード大学で公開された国絵図の高精細画像
http://gigazine.net/news/20151213-omi-kuni-ezu-stanford/
にもこのIIIFが採用されていました。

これがどういう風になるかといいますと、たとえば、

長辺を1000ピクセルで表示
.../full/!1000,1000/0/default.jpg

長辺を500ピクセルで90度回転させて表示

.../full/!2000,2000/90/default.jpg

一部を指定して切り出して表示
.../7400,9500,1000,1000/!1000,1000/90/default.jpg

というような感じのことができます。

これだけですと、URLまでいちいちいじらない一般利用者にはあまり縁のなさそうな話ですが、これは、色々な画像ビューワを作る際に大きく影響してきます。つまり、IIIF対応画像ビューワがあれば、どのサイトに置いてある画像でも同じように閲覧することができるようになります。さらに言えば、たとえばバーチャル博物館のような仕組みを作る際にも、IIIFの配信形式に対応した画像を対象とするなら、、IIIFに対応した表示機能を用意するだけで世界中で公開されているIIIF配信形式に対応した画像を取り込んで利用することができるようになります。IIIFの配信形式に対応した画像の公開がある程度広まっていけば、他にも様々な活用が可能となっていくことでしょう。（IIIF登場以前ですが、キュレーター養成カリキュラムでバーチャル博物館作成Webシステムを作って使った話を聞いたことがありまして、そういうものもIIIFの配信形式に対応した画像が増えてくれば一気にブレイクするかもしれませんね）

　すでに、フリーでの実装がいくつか公開されておりまして（ http://iiif.io/apps-demos.html ）、さらに、日本でもデジタルアーカイブシステムを作っている大手の某社がIIIFに近々対応すると聞いております。仕組み自体は複雑なものではありませんので、仕様書に「IIIFに対応すること」と書くだけで対応できる可能性もあります。

さて、筆者はDIY プログラマであり発注担当者でもあるので、当然、自分でも一応やってみなければ、という思いに駆られるわけです。1年程前に一度試してみたのですが、そのときに使った画像データだと、効果的な感じにするのにちょっと手間がかかりそうだったのでブログに書いたりしなかったのですが、このたび、国文研データセットでImage APIの方を試してみたところ下記のような感じになりました。

横幅500pxで表示

http://www2.dhii.jp/loris/NIJL0010/099-0127/099-0127-00023.jpg/full/1000,/0/default.jpg

斜めに少し傾けて横幅は400pxで

http://www2.dhii.jp/loris/NIJL0010/099-0127/099-0127-00023.jpg/full/800,/22.5/default.jpg

右下のカエルだけを切り出して横幅800pxで表示

http://www2.dhii.jp/loris/NIJL0010/099-0127/099-0127-00023.jpg/pct:60,65,18,23/800,/0/default.jpg

サーバ側は、大きな画像を1枚用意しておけば、あとは、クライアント側からリクエストされたURLに応じてサーバが画像ファイルを加工して送出してくれるようになっています。これだけだと一般ユーザからはあまり面白くないかもしれず、どちらかと言うとソフトウェア開発者にとって面白い機能なのですが、一般ユーザでも、URL指定するだけでサーバ上の画像を切り出して提示できるということは、たとえば下記のようなことが可能になります。この場合、同じ座標で切り出してみましたが、画像撮影が上手にできているせいか、まあなんとかうまくできている感じです。

例：寛政3 (1791)年刊と享和4 (1804)年刊の武鑑の口絵に出てくる亀を見比べてみる

http://www2.dhii.jp/loris/NIJL0307/MIT-Y01201-140/MIT-Y01201-140-00004.jpg/pct:35,70,13,15/800,/0/default.jpg

http://www2.dhii.jp/loris/NIJL0308/MIT-Y01201-149/MIT-Y01201-149-00004.jpg/pct:35,70,13,15/800,/0/default.jpg

で、違ってる箇所をさらに拡大してみると…

http://www2.dhii.jp/loris/NIJL0307/MIT-Y01201-140/MIT-Y01201-140-00004.jpg/pct:36,80,4,5/400,/0/default.jpg
http://www2.dhii.jp/loris/NIJL0308/MIT-Y01201-149/MIT-Y01201-149-00004.jpg/pct:36,80,4,5/400,/0/default.jpg

さらに、座標がちょっとずれますが、寛政11 (1799)年刊の亀は以下のような感じです。

http://www2.dhii.jp/loris/NIJL0306/MIT-Y01201-146/MIT-Y01201-146-00002.jpg/pct:35,72,13,15/800,/0/default.jpg

このように、普通のユーザがブログを書いたりする時でも、画像URLの書き方のルールさえ知っていれば、割と自由に画像の部分引用ができるようになります。画像URLの書き方が面倒だ…と思われる方もおられると思いますが、もう少しお待ちいただければ、簡単に書けるような仕組みもご提供しますので…

ところで、ここまで来ると、開発系の人はむずむずしてくると思いますが、サーバ側にインストールしてみたのは、リストされているもののうち、lorisというソフトウェアです。これは、Jpeg画像でも使えて、Pythonで書かれていて、Apacheを介してデーモンとして動かせるので、お試しとしては導入が楽かと思い、使ってみています。あと、気になっているのはdigilibなのですが、まだ試せていないので、どなたか試用レポートをあげていただけるとありがたいなと思っております。

　lorisの導入は、上記のWebサイトに書いてある通りです。基本的に特に難しいことはないと思いますが、サーバ側に必要なライブラリ等をすべて用意するのに若干手間取りました。そこさえクリアできれば、あとは難しいことは特にないと思います。

IIIFは、簡便なユーザインターフェイスをクライアント側に用意するだけで画像の提示や切り出しを色々な形で（再掲: Image APIを参照）できるようになるということで、様々な応用が期待されるところです。私もそのうち、これを活用した面白いソリューションを提供したいと思っています。

2016-02-08

ワークショップ（デジタル/アナログ・ヒューマニティーズ）によせて：パブリックドメイン資料の活用と大学図書館連合への参画について

【イベント】デジタル・ヒューマニティーズ関連ワークショップ（東京・2/10、2/12） | カレントアウェアネス・ポータル

の告知があった。残念ながら、すでに2/10は京都で講習会の講師を頼まれていて、ほぼ時間もかぶっているので、全然参加できないという状況である。しかしながら、デジタル・ヒューマニティーズ（DH）に関わるイベントが、西洋における歴史学の文脈で日本で開催されるというのは大変にうれしくありがたいことである。2/10のテーマに掲げられている「アナログ・ヒューマニティーズ」というのは、TEIガイドラインをめぐる議論等を通じて、まさにDHの努力の半分かそれ以上が捧げられているような歴史のある重要な事柄なので、ぜひそこを踏まえた上での建設的な議論を期待したい。

さて、さらにうれしいのは、テーマになっている話としてEEBO-TCP、ECCO-TCPが採り上げられていることである。TCP (Text Creation Partnership）というのは、有料（かつかなり高額な）英語文化資料データベースであるEEBO (Early English Books Online, 1475-1700年に英国で刊行された本のオンライン版)やECCO (Eighteenth Century Collections Online)等の、テキストの部分のみを、最初はメンバー大学図書館のみで作成・公開・共有して、最終的にはパブリックドメインとして共有しようという試みである。昨今のオープンデータ・オープンサイエンスの話ともつながってきそうな話である。

http://www.textcreationpartnership.org/

すでにEEBO-TCP Phase I として25000点のテクストがパブリックドメインになっていてオックスフォード大学のテクストアーカイブ等から公開されており、まだまだこれからたくさん作成公開されるという感じである。日本でも、去年の9月まで東京女子大にいらっしゃったアンジェラ・ダヴェンポート先生が注目しておられて、ワークショップを開催したりしておられた。

　このTCPのテクスト群をターゲットとして公開されている検索システムとしてはミシガン大学の Early English Books Online のものが結構高機能な検索システムを提供したりもしていてなかなか便利そうである。他にも様々なプロジェクトがこのテクスト群をターゲットとした研究開発を行っているようであり、一昨年、シカゴでTEIカンファレンスに参加した際には色々な研究発表が行われていた。なかでも面白かったのは、OCRのプロジェクトと、TEIガイドライン（人文学資料のためのテクストXML マークアップのためのルール）のサブセットのプロジェクトの話だった。

　OCRの方は、テキサスA&M大学の英文学のLaura Mandell先生が率いるeMOPプロジェクトで、GoogleのフリーのOCRソフトであるTesseract OCR engine に歴史的な字形を学習させるためのツールとしてFranken+というのを開発中とのことで、これは日本語でやってみるとどうなるんだろうか、とちょっと思った次第。

　後者は、このTCPテクスト群をターゲットとしたTEI Simpleという規格が立ち上げられていた点である。TEIガイドライン自体は、とにかく多様な人文学資料やその用法にすべてきちんと対応しようとするあまり、タグや属性が多すぎてちょっと扱いが難しい面があるのだが、TEI SImpleでは、それをばっさりと削ってしまった上に、さらに英文資料に特化された属性値を決めたりして、簡単に機械処理できるようにしているようなのである。上述のオックスフォードのアーカイブでもこのTEI Simpleに従ってマークアップされたTEI/XMLファイルを公開しているとのことである。（ここら辺のことは西洋史とか英国史を研究しているわけではないので必ずしも正確・適切ではないかもしれずその点ご容赦いただきたい）。

　いずれにしても、自由に使える電子テクストがどんどん出てきているようなので、色々な研究が大きく進んでいくだろう。TCPのテクスト群は基本的には英語で、日本人でもそこそこ使えるのではないかと思うので、単に検索サービスやツールを使ってみるだけでなく（もちろんそれも重要なことだが）、こういったものを活用したプロダクトに挑戦してみていただくのもよいのではないかと思う。

さて、副題の方に入ろう。このTCPの参加館リストをみてみると、世界中から100以上の大学図書館が参加していて、東アジアからも香港大学が参加しているが、日本の大学は０である。まあ確かに英語資料のみに注力することは難しいので、わざわざ日本の大学からお金を払ってまで参加しようというのはちょっと無理があるかもしれない。ただ、他にも、HathiTrust（参照1 2 3）やCADAL（参照1 2）など、国際的な大学図書館連合の枠組みによって資料・情報を融通していこうという流れが結構大きくなってきており、にも関わらず日本の大学図書館からはまだほとんど参加がない（HathiTrustは慶応大学が資料提供をしているが参加はまだ）ような感じであり、このままで大丈夫なのか微妙に不安である。図書館の方々（もしくは図書館の方々に触発されたり頼まれたりした一部の研究者）が話を進めてくださるのを待っているのが研究者としてはこれまでの常道だったと思うのだが、もしかしたら、そろそろ、研究者の側から、きちんと話を持ちかけたりしていく必要があるのかもしれないと思ったり、そこまでする必要はなくて図書館の方々を信じて待っていればいいのかもしれないと思ったり、今回のワークショップのお知らせを拝見して、改めて色々考えた次第である。

2016-01-26

北米大学図書館の日本研究司書の人たちの危機感を実感した話

今、いくつか原稿を抱えていて、本当ならこれを書いている場合ではないのだが、しかし、この感触を忘れないうちに記しておきたい。

北米大学図書館の日本研究司書の人たちの危機感を実感した

という話。

特に、ミシガン大学日本研究司書の横田カーター啓子さんやハーバード燕京図書館日本研究司書のマクヴェイ山田久仁子さんからよくおうかがいする話で、他の北米日本研究司書の方々からもちょこちょこおうかがいする話として

「中国韓国（多分台湾も）はネットで資料が手に入るけど日本は全然ネットで手に入らないからこのままだと利便性で圧倒的に負けていて若い人がそれを理由に離れていってしまいかねない」

という、割と、日本の将来にとって危機的な話がある。これは、江上敏哲さんが彼のご著書『本棚の中のニッポン　海外の日本図書館と日本研究』をはじめとしてあちこちでしておられる話でもある。そこら辺の事情を知る人なら誰でも感じる危機感である。私自身も、海外の仏教学研究者からそれに似たクレームを受けることは少なくないので多少は危機感を共有できていると思っていた。

しかし、先日、

デジタル・ヒューマニティーズに関して指導をしている大学院生が相談に来たので色々話をしているなかで、検討対象となっている資料が参照している資料集のようなものをちょっと見てみたいねえ、という話になった。1970年代に台湾の中央研究院から出版されたものなので、パブリックドメインではないだろうし、まあでも一応、ネットで探してみるか…と、探してみたら、なんとGoogle Booksにあった。有料で。お金を払うとGoogle Playで読める。Google Playはコンビニでギフトカードを買えばそのポイントで購入できるので（クレジットカードの所有が簡単ではない学生／院生にとっては重要）、さっそく彼とコンビニに行って（ついでにコーヒーなども買って）、戻ってきたらすぐにその資料を読めた。やや荒いスキャンだが、人が読むには十分であり、しかも部分的にだがOCRがかかっていて、数字のところなどは検索までできて、確認したかった箇所もすぐにみつかった。この資料を確認できたことで、次回の国際学会での発表申し込みのアブストラクトの内容をほとんど決めることができ、あとはそれに基づいて文章を書いてきてね、ということになった。

…こんな話は、電子書籍業界に少し詳しい人なら誰でも知っているような話だろう、と思うかもしれない。しかし、これが、海外にいる人にとっての日本の資料だとどうか、ちょっと考えて見よう。なぜこのように考えるかと言うと、上記の大筋は、海外（日本）の研究者が台湾の資料を参照するという話なので、海外の研究者が日本の資料を探してみるという話と対比するにはちょうどよいのではないかと思ったのであった。

　と言っても、私の場合、海外で日本の資料を参照することの大変さについては十分な知識はないかもしれない。今のところ知っているのは、「日本の図書館では、海外から複写依頼があった場合、著作権保護期間中の著作物はルール上電子送信できないので紙のコピーを郵送している（ので、送る側も大変だろうけどとにかく頼む側にとっては時間がかかり過ぎて話にならないという問題: 参照⇒海外から申し込む｜国立国会図書館:）」だけである。もしかしたらもっと良い方法が今はあるかもしれないが、とりあえずこの話を前提とすると、

　（ここからは単なる想像です）もし海外で、教員と大学院生が、日本研究に関する研究について相談しながら鍵となる論文を読んでいて、参照されている資料の内容を確認してみたいと思ったら、まずはGoogleで検索してみるだろうか。しかし、Google検索ではすべての本の書誌情報が検索できるわけではないようなので、見つからなければNDLサーチなども使って検索してみるだろう（上記の事例ではGoogle検索で見つかった）。しかし、書誌情報が完備していなかったり、論文の参照の仕方が不十分だったりして候補となる本がたくさんあったり（上記の事例はそうだった）すると、実際にはどれを参照しているのかよくわからない（上記の事例では似た名前の本がいくつか見つかったが内容を一部表示してくれるので確認できた）ので、内容を確認するためにすべての本をとりあえず確認してみなければならない。「どれだろうねえ」となる。とりあえず、近くの図書館に少なくとも候補の一部は所蔵されているようなので、まず、その図書館に行くべきかどうか考える。行く時間はあるか。探す時間はあるか。探したとして、なかった場合どうするか。（もちろん、本が並んでいるところに行けば、探している資料だけでなく他にも色々な関連する資料が視野に入って発想が広がることがあるので、個人的にはなるべく図書館に行くのが好きだしそのようにしているのだが）なかった場合は、研究司書さんに探してみてもらおうか、資料が見つかったらまた続きをしようか、ということになって、この日の研究の相談は終わりである。「この資料を探してみよう」これがその日の相談の成果だ。（上記の事例では、次回の国際学会での発表申し込みのアブストラクトの内容が決まっている）

　さて、大学院生（というよりおそらく研究司書さん）が資料を探し始めるわけだが、資料が入手しやすいところになければ、国立国会図書館あたりに複写依頼をかけ、紙で送付してもらうのを待って、送ってきてもらう。しかし、中身が確認できない場合、確認したい本と微妙に違っていたり、複写依頼をした場所がずれていたりしたら、もう１回複写依頼をすることになるかもしれない。複写した資料があたりかハズレか、というのは、研究司書さんと大学院生の間のやりとりで解決できるかもしれないし、あるいは相談相手の教員に資料のコピーを持って行った相談の場でハズレだと発覚して再度相談、となるかもしれない。最長で2週間くらいでなんとかなるのだろうか？あるいは1ヶ月？

　ご存じのように、特に北米では、研究成果をどんどん出していかないと専門家として生きていくことは難しい。そして、日本研究をしている大学院生が資料を入手するために数週間をかけている間に、たとえば中国の研究をしている大学院生は、アブストラクトを作って、また次に進んでいるのであるのだとしたら、そのような環境下では、そもそも、日本研究をしていると研究業績が少なくなってしまうので、「東アジア研究」などの枠で勝負になった場合、日本研究の若手が勝てる可能性は少なくなってしまっているのではないかという気がする。こんなことをしていてもらちがあかない、となったら、その資料をみなくても研究できるようにテーマを少しずらそうか、という話になるかもしれない（時々耳にすることのある日本と海外での日本研究の違いはこういうところにも起因しているのかもしれない）。資料をみるだけでこんなに大変だったら、わざわざ日本研究なんてしなくても、中国や韓国も漢字文化圏で古い時代なら知識も生かせるし雰囲気も似てるし（日本人から見ると似てないが）、資料はすぐ入手できるし、中国韓国の研究に移行するか、という風になるかもしれない。いずれにしても、研究発表をしなければ生きていけない米国の研究者業界で、日本研究はおそらくそのような不利な状況におかれているのだと思う。（違っているところがあれば教えてください。）

ちなみに、今のような状況でも、多分、インターネットが普及する前は、問題なかった、というより、むしろ、郵便制度が完備していた日本には大きなアドバンテージがあったと思う。しかし、インターネットが普及した今、それを活用できていない現状は、単純に、海外から見ると「不便な状況を放置しているだけ」に見えてしまっているような気がしている。もちろん、どこかがお金を出してくれないとできないことではあるのだが、「どういう風にお金をだしてくれればどういうことをします」ということをきちんと提示しないことにはお金を出しようがないような気もする。一次資料に関しては、しかも著作権が切れているものに関しては、国立国会図書館や国文学研究資料館、早稲田大学をはじめとして、各地で大きな動きができてきているが、それもまだまだ網羅的と言える段階ではなく、多くはそれほど希少性の高くないものである。そして何より、学術書がまだあまりデジタルで海外から読めるようになっていないそうである。学術出版社だけでなく、学術系の刊行物を出しておられる皆様におかれましては、ぜひなんとかしていただきたいと、改めて思った次第である。

（そうそう、前提として、知日家（親日家でなくてもよい）は少しでも海外には多い方がいいと思っている、ということもあります。日本文化のことは、知られていないよりは知られている方が、色々な面で良いと思うのです。）

もちろん、できることがあればご協力もしたいと思っておりますので、私にお手伝いできそうなことがあれば、お声がけください。

2016-01-16

SAT大蔵経DBで仏典を読みながらJapan Knowledgeの仏教語大辞典を簡単に引けるようになりました

今回は、SAT大蔵経データベースとJapan Knowledgeが連携して便利になった、という話です。

前置きが長いので、前置きを飛ばしてとりあえずどうなったか知りたい人は、下の方にある「ここから具体的な解説です」というところから見てください。

2008年から、SAT大蔵経データベースでは、「本文をドラッグすると英語の仏教語辞典を引いて意味を英語で表示する」という機能を提供していました。これはチャールズ・ミュラー先生のDigital Dictionary of Buddhism（DDB）の見出し語と意味のデータ（ついでにピンイン表記も）のデータをいただいたことで実現したサービスでした。これは英語圏の方々には大変喜ばれているだけでなく、英語で仏教のことを書いたり話したりしなければならない世界中の（日本も含む）方々からも好評を博している機能なのですが（一方で、あれのせいで学生がちゃんと辞書を引かなくなったと怒っている米国の大学の先生もおられるそうですが）、しかし、せっかく日本で作っているのに日本語の意味を表示できないのはなんとも残念なことでした。

一方で、有料コンテンツとの連携ということもSAT大蔵経DBでは課題の一つでした。というのは、これまで、SAT大蔵経DBは基本的にフリーのコンテンツを集めたり連携したりしてサービス提供をしてきました。しかしながら、著作権保護期間中の有料コンテンツの中には素晴らしいものがたくさんあります。そもそも優良なコンテンツを作成するには費用が発生することが多いので、利用者が個別に支払った費用がコンテンツの作成に回るという仕組みもまた、捨てがたいものがあります。そこで、フリーのデータベースでありながら、適切な対価を支払えば有料コンテンツも使える、ということが実現できないだろうか、それも、学術データベースの文脈から取り組めないだろうか、ということは、プロジェクトの中でもずっと検討されてきたことの一つでした。

ここでの問題の一つは、学術データベースプロジェクトが課金システムを運用できるか、さらには、課金を要するコンテンツを適切に管理できるか、ということでした。20年前ならいざ知らず、現在のその種の業務の要求水準からすると、それはさすがに手を出すには大き過ぎる課題であり、やむを得ずペンディングとなっていたのでした。

そこに、降って湧いたように登場したのが、Japan Knowledgeでの『仏教語大辞典』搭載の話でした。機関契約だけでなく個人契約サービスも提供しており、国内だけでなく、世界中の大学・大学図書館をはじめ、各地にたくさんの契約機関とユーザを抱えているJapan Knowledgeが、SAT大蔵経DBと関係の深いコンテンツを提供し始める、という話をうかがったとき、これは良い機会だ、ということで、さっそくSAT大蔵経DBとの連携の話になりました。ありがたいことに、見出し語と日本語ふりがなのデータと個々の見出し語のURLのリストをいただけることになりましたので、上記のDDBの検索機能をほぼそのまま援用して、SAT大蔵経DBに組み込んでしまいました。その結果、下記のようになりました。

ここから具体的な解説です。

１．まず、右下の小さなウインドウに注目してください。これが今回新規追加されたJapan Knowledge用ウインドウです。

２．では、まず、お経を一つ、開いてみましょう。一番最初のものを開いてみます。

３．次に、どこでもいいのでテキストをドラッグしてみましょう。そうすると、右下の小さなウインドウに仏教語大辞典の見出し語検索結果がリストされます。（ここでは、見出し語を最長一致で検索しています。さらに、その際に、異体字での検索も行っております）

４．リストされた見出し語をクリックしてみましょう。そうすると、ポップアップウインドウが開いて、仏教語大辞典の説明が表示されます。
（ただし、Japan Knowledgeの機関契約か、パーソナル+Rの個人契約をしている必要があります。それから、パーソナル契約のログインをしていない状態でアクセスした場合は最初の表示画面は機関契約向け画面になりますので、機関契約アクセスでない場合はパーソナル契約のログイン画面に行ってログインしてください）

以上です。兎にも角にも、日本語で意味が出るようになったのは一つの大きな前進かと思っております。

これは、フリーのコンテンツと有料コンテンツを有機的に組み合わせてより良い学術デジタルアーカイブを作成・提供していくための実験の一つです。他にも、うまく組み合わせられそうな有料コンテンツがあれば、ぜひ取り組んでいきたいと、個人的には考えております。特に、有料コンテンツを作っておられる皆様は、ぜひ前向きにご検討ください。

ちなみにSAT大蔵経DBは、これ以外にも色々な機能を提供しておりまして、下記のタブから、関連する書誌情報＋CiNiiの論文PDFを引いたり、英訳対応コーパスを検索したり、単語の登場頻度を見たり、文字の情報を確認したり…と、色々な機能が提供されておりますので、興味があるかたはクリックして開いて、試してみてください。

2015-11-27

日本の古典籍のオープンデータ！　その２

前回の続きである。

あれもこれもしながら合間にちょこちょこっとやっているので、なんとも微妙なシステムを公開してしまっていて大変恐縮なのだが、

今夜は、示した頁に付与されたタグを表示する時に、同じタグを付与されている別な本／頁へのリンクをリストするだけでなく、さらに、別な本／頁のサムネイル画像まで表示した上で、サムネイル画像をクリックするとその画像がまんなかに表示されるようにしてみた。これによって、タグ付けの意義と課題がよりいっそう見えやすくなるのではないかと思っているところである。

たとえば、下記のURLでは「頼朝」をみてみると、文字だけの頁にも「頼朝」のタグがついている。文字だけの頁だと、どこに「頼朝」の文字列があるのか探すのが結構難しかったりして、やはり画像中の座標情報をとってもらえたらと思ったところである。

http://www2.dhii.jp/nijl_opendata/NIJL0018/099-0014/11

また、「頼朝」は「よりとも」や「源　頼朝」など、色々な表記のタグがあるようで、シソーラスの必要性を改めて感じたところである。

あるいは、下記URLの「一条院」は色々な本にタグつけされているようで、これもなかなか面白い。

http://www2.dhii.jp/nijl_opendata/NIJL0032/110_0619/31

それから、当然のことだが、『寛政武鑑』は異版にそれぞれ割と細かくタグをつけているので、サムネイル画像一覧は結構便利だろう。

http://www2.dhii.jp/nijl_opendata/NIJL0302/MIT-Y01201-143/4

また、さらに、サムネイル画像をクリックすると中央の画像が切り替わるという機能もつけておいたので、それぞれのサムネイル画像をクリックしていくと、パラパラ漫画的に違いがわかるのでこれはこれでちょっと面白い。別ウインドウで開いて詳細に比較してみたければ、頁番号を右クリックして別ウインドウで開いていただくとよい。

というような機能を今夜はつけていたわけだが、昨晩のブログ記事の続きは…眠いのでまた今度。

2015-11-26

日本の古典籍のオープンデータ！　その１

日本の古典籍の本格的なオープンデータが公開されたのは今月の上旬。今回の場合、何が本格的かと言えば、その画像の圧倒的な容量である。下記のサイトをご覧いただけば一目瞭然だが、26GBだの30GBだのといったファイルがHTTPでダウンロードできるようになっているのである。
http://www.nii.ac.jp/dsc/idr/nijl/nijl_list.html
もちろん、そんなサイズのファイルをHTTPでダウンロードさせるというNIIの豪気さにも圧倒されるが、P2Pをセキュリティポリシー等で禁止している機関もNIIにはぶら下がっているそうだし、anonymous FTPというのもFTPのポートを閉じているところがあるかもしれないと思うと、なんでもHTTPという昨今の情勢をNIIが後押しするようなことも色々な事情から致し方ないことなのだろうかとも思う。

　さて、そんなどうでもいい感想はともかく、とりあえず350点もの日本の古典籍の画像＋書誌データ＋解題＋タグがCC BY-SAで公開されるというのは大変に感動的なことであって、これはぜひ活用せねば…と思って見てみようと思ったら、とりあえず見てみる、というのがなかなか困難な状況であることに気がついた。（というか一目瞭然だが）。

　そこで、とりあえず公開されているデータを一通りざっと見えるようにしてみようかと思うに至った。（ここまで、公開データのサイトを見てから数分で考えたこと）。

　そこで、作ってみたのが「国文研データセット簡易Web閲覧」というサイトである。とりあえず、OpenSeaDragonで画像をぬるぬると拡大縮小できたりとか、サムネイル一覧をざっくり見たりとか、付与された解説やタグが見えるようにしたりとか、タグによる頁間のリンクを張って関連頁をたどれるようにしてみたりとか、見栄えは気にせず、とにかく内容を確認できるようにしている。

　特に、「タグ-頁画像対応リスト」と「タグリスト」は色々活用できると思うので、このままローカルに保存して色々いじっていただいたりするのもよいと思う。特に、「歴史的典籍オープンデータワークショップ」に参加してみようと思っている人は、ぜひ、予習に活用していただきたい。

　というわけで、上記のサイトを作るためにやったことを少しずつ書いていくつもりである。まずはデータのダウンロードである。wgetで一括ダウンロード。容量が大変だが、これは待っていればいいのでOKである。たしか1日で終わったような気がする。

　次に、zipファイルを戻す作業。これも基本的には一括作業。元々tcsh使いだったこともあり、知識が断片的なのでcsh系で
$ tcsh
$ foreach f (*.zip)
> unzip $f
> end

ということをして、あとはひたすら待ち。これも結構時間がかかった。

さて、次に、ビューワやサムネイル一覧のための画像加工をしなければならない。まずサムネイル一覧のための画像加工だが、これもまたcsh系で、サーバに入っているImageMagickを使って（この種の操作は10年前からまったく進歩していないのだが）、
$ tcsh
$ foreach f (*/*.jpg)
> convert -resize 200x $f $f:rs.jpg
> end

とやって、どんどんサムネイル画像を作成していくのである。これもあとはひたすら待ち。

次に、画像ビューア、OpenSeaDragonで表示するためのピラミッドタイル画像の作成。このタイル画像作成のツールは色々なものが公開されているが、今回はDZIでpythonのものをダウンロードして、用意したディレクトリを全部読み込んでこのスクリプトを実行していくスクリプトを書いて、あとはひたすら待ち。atコマンドで動かしたが、結局この作業に1週間以上かかった。

というわけで、ピラミッド画像作成が終わったところで、いよいよOpenSeaDragonを使ったサイトの作成に入ったわけだが、それはまた次回に。