2016-09-17

Mirador 2.1 (IIIF対応ビューワ)リリース＆日本の古典籍が登載！

IIIF Mirador

IIIF（International Image Interoperability Framework）対応の高機能画像ビューワの代表格の一つであるMiradorのバージョン2.1が、ついに、ようやく、リリースされました。（ダウンロードはこちらが簡単です。このビューワはローカルパソコンにダウンロードしたものでもネット接続されていれば動作します。）

　英語を読むことに支障がない方はぜひ公式ページをご覧ください。開発の中心メンバーは、ハーバード大学の Rashmi Singhal さんとスタンフォード大学図書館のDrew Wingetさんで、プロジェクトを率いているのはスタンフォード大学図書館のStuart Snydmanさんです。開発はGitHub上で行われており、世界中から様々な人が貢献しています。私も若干ですがお手伝いしております。

裏側の諸々はともかく、ユーザから見た今回のリリースの目玉は、

（１）表示している画像の調整機能

（２）より充実したアノテーション機能

の２点かと思います。そして、日本人や日本文化好きな人にとっては、

（３）日本の古典籍が標準サンプルとして登載

というのもうれしいことかもしれません。あと、

（４）インターフェイスの日本語表示

も追加されました。

ということで、さっそく、こちらに仮インストールしたMiradorを使って、一つずつみていきましょう。

　まず、最初に開いた画面では下記のようになっているはずですので、臆せず画面の真ん中をクリックしてみてください。

f:id:digitalnagasaki:20160917031800j:plain

そうすると、下記のように、各地のIIIF対応サーバから集められたサンプル資料がリストされ、選択＆表示できるようになります。そこで、とりあえず、ヴァティカン図書館の画像資料をクリックして開いてみましょう。

f:id:digitalnagasaki:20160917031904j:plain

デフォルトでは、画面下にページのサムネイル画像が並ぶはずですので、そのなかから適当なページをクリックしてみてください。そうするとそのページの拡大画像が表示されるはずです。ここで、右下の＋ーアイコンをクリックすれば画像の拡大縮小ができます。

f:id:digitalnagasaki:20160917032028j:plain

ここまでがごく基本的な操作方法です。次に、いくつかの目玉機能を見ていきましょう。

（１）表示している画像の調整機能

画像表示ゾーンの左上から２番目にあるアイコンをクリックすると、画像調整用のバーが開きます。ここから、表示中の画像の明度や彩度、コントラストを調整したり、回転させたり、白黒にしたり、といったことができます。

　下図は、画像調整用のバーを表示してから明るさを調節してみています。

f:id:digitalnagasaki:20160917034233p:plain

下図は、色反転をしてみています。

f:id:digitalnagasaki:20160917034235j:plain

（２）より充実したアノテーション機能

画像表示ゾーンの左上のアイコンをクリックすると、アノテーションモードになります。ここで、アノテーションが表示できるようになります。

　さて、アノテーションを表示してみるために、すでにアノテーションがついている画像を開いてみましょう。まず、左上のアイコンにカーソルをあわせるとサブメニューが表示されますので、その中から「新しいオブジェクト」をクリックしてみましょう。

f:id:digitalnagasaki:20160917034416j:plain

そうすると、再び、下記のような画面になります。下の方に「唐糸草子」という資料がありますので、これをクリックしてみてください。

f:id:digitalnagasaki:20160917034429j:plain

「唐糸草子」で、テキストのあるページのサムネイルをクリックしてみましょう。そうすると、そのページの拡大画像が表示されるはずです。

f:id:digitalnagasaki:20160917034459j:plain

ここで、画像表示ゾーンの左上のアノテーションのボタンをクリックしてみましょう。

f:id:digitalnagasaki:20160917034519j:plain

そうすると、下記のように、アノテーションが付与されている箇所が表示され、さらに、カーソルをあわせるとその内容も表示されるはずです。ここでは、カルガリー大学の楊先生が付与してくださった翻刻テクストが表示されています。

f:id:digitalnagasaki:20160917034540j:plain

画像や翻刻テクストのクレジット表示は、右上の（i）アイコンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160917034601j:plain

さらに、ここでは、自分で新たにアノテーションをつけることもできます。アノテーションアイコンの右側にある「矩形で選択」「楕円形で選択」などをクリックしてから画像上でドラッグすると、アノテーションをつけることが可能になります。ここでつけたアノテーションは、デフォルト設定では自分のWebブラウザに保存されます。LocalStorageという仕組みを用いているので、ブラウザ側にずっと保存されることになります。

f:id:digitalnagasaki:20160917034618j:plain

　もし、このアノテーションを他の人と共有できるようにしたければ（Webコラボレーションなどをしたい場合は必要となるでしょう）、サーバにアノテーションを保存できるような設定方法があるようですので、ぜひどなたかお試ししてみてください。

（３）日本の古典籍が標準サンプルとして登載

　すでに上でみていただいたように、「唐糸草子」の翻刻テキスト付きのものが標準サンプルとして登載されています。これは、国文学研究資料館が「国文研データセット」として公開したものを筆者のWebサイトにてIIIF対応で公開し、さらにそれに、カルガリー大学の楊先生がWebコラボレーションシステムを用いて翻刻テクストをつけてくださったものです。

　それから、SAT大正蔵図像DBが公開している曼荼羅画像も登載されています。

　それに加えて、スイスのバーチャル写本図書館、e-codiesが奈良絵本の画像を提供してくれています。これも大変ありがたいことです。

f:id:digitalnagasaki:20160917034630j:plain

（４）インターフェイスの日本語表示

　これは筆者がとりあえずやってみたものですが、より適切な訳し方がありましたら、ぜひご提案ください。

なお、Mirador 2.1では、ページの表示方向が左から右のみとなっております。日本語資料や東洋の資料では、右から左に書いていくものも多く（特に縦書きの資料で）、ページの表示方向も右から左となっていてほしいところです。これについては、次期のマイナーアップデートであるversion 2.1.1で対応予定とのことです。筆者は、必要に応じて右から左に表示方向を切り替える機能を組み込んだMiradorの改良版を開発して使っておりますが、もう少し待てば、本家の正式版にてきちんと実現できるようになるそうです。

それから、Miradorの複数画像並置機能の使い方のサンプルとして、Miradorもビューワの一つとして採用している「国デコImage Wall」の使い方をざっとみていただく動画を作成しました。お時間がございましたらぜひこちらもご覧ください。

www.youtube.com

ということで、IIIFとMiradorがもたらすWeb高精細画像が共有された世界の一端を、ぜひお試しください。

2016-08-29

国デコ（国立国会図書館デジタルコレクション）の使用感を今更ながら…

国デコ（国立国会図書館デジタルコレクション）を常日頃大変活用させていただいており、国立国会図書館の中の人達が色々努力と工夫を重ねてきておられるということはよく認識しております。その上での話なのですが、ここしばらく、国デコをかたっぱしから見ていくという作業をしていたので、そこでちょっと気になった点をいくつかメモしておきます。

すでに多くの人が感じていることであり、ほとんど（あるいはすべて）中の人も認識しておられることだろうと思うのですが、次回のシステム更改の際などにご検討いただけますと幸いです。

1. 出版（刊行）年の取り方がどうもよくわからない…？

　issued:W3CDTFのデータをみると、西暦で出版年を取ることができます。しかし、0で終わっているものの場合、その年代で詳細が不明な場合、issuedを見ると[18--]などとなっており、その-をissued:W3CDTFでは0に変換しているようです。これの典型的な例は1000年で、インターネット公開資料だけで6021件もあるようなのですが、実際、1000年を見てみると、江戸時代のものとしか思えない大変きれいな浮世絵のようなものも表示されたりします。これはissuedを見ると[1---]となっており、2千年紀であること以外わからない場合につけられている場合があるような雰囲気です。しかしながら、issuedには必ずしも西暦が入っているとは限らず、ここは色々な書き方がなされているようでもあります。検索APIで500件までとれるのでちょっと見てみたところ、以下のような感じです。それぞれの書き方に対して登場件数もつけてみています。

なし？: 100
乾隆: 15
乾隆刊: 3
元刊: 1
光緒: 4
光緒刊: 8
光緒寫: 2
光緒石印: 12
古寫: 1
嘉慶刊: 55
奈良室町寫: 1
奈良寫: 1
宣統刊: 1
室町刊: 2
室町寫: 5
弘治12序刊萬暦補刊: 8
明刊: 7
明寫: 8
朝鮮刊: 3
朝鮮刊補配活字印: 1
民國: 1
江戸: 1
江戸刊(鹿角山房藏版): 14
江戸刊: 9
江戸初期寫: 5
江戸寫: 29
江戸木活字印: 3
江戸活字印: 1
清刊: 20
清初刊: 6
清寫: 4
清寫,附江戸寫: 23
萬暦刊: 3
道光光緒刊: 8
道光刊(世楷堂藏版): 1
鎌倉中期刊: 1
鎌倉刊: 8
［1---］［写］: 157
［1---］［寫］: 7
［1---］: 47
［室町-明治時代］［写］: 1
［室町時代］［写］: 2
［室町時代］: 1
［平安-室町時代］［寫］: 2
［康煕］: 1
［明刊］: 2
［江戸時代］［写］: 2
［江戸時代］: 1
［鎌倉時代］［写］: 1
［高麗］刊: 1

こうして見てみますと、せっかくこういう情報を書いていただいているので、ここから「範囲」の情報などを入れていただくとか（というのはちょっと大変過ぎるかもしれませんが）、あるいは、書き方をある程度統一してみていただくとか、表示結果が統合されているようにラッパー的なものをかましていただくとか、何かしていただけるとありがたいなあ、と思ったところでした。（おまえがやれ、と言われそうでもありますが…）しかし一方で、納税者としては、ここにあまりお金をかけすぎても困るとも思っておりますので、何か良い案配の対策を見つけていただけたらと思っております。あと、少なくとも、ここにどういう語彙が用いられているのか、というリストもあるとありがたいなあ、などと思ったりもしております。ぱっとみて気になるのは、たとえば、

＞江戸寫: 29

＞［江戸時代］［写］: 2

＞明刊: 7

＞［明刊］: 2

あたりでしょうか。少なくとも２系統あるような感じとも言えるでしょうか。入力時期の違いによるのかもしれませんね。検索APIの制約で500件しか採れてないので、残りの5500件程がどうなっているかわからないのですが…

　いずれにしましても、ここら辺を、私のようなDIY プログラマにも使いやすいように整備していただくのは、NDLのデータが幅広く活用されるようになっていく上でもとても重要なことかと思いますので、ぜひ前向きにご検討いただけたらと思います。

2. 読み進める方向とカーソルキーやサムネイルの並びが？

　おそらくは近代デジタルライブラリー由来であろう書籍資料は、サムネイル一覧を表示したときに左から右にサムネイルが並びます。さらに、ページを繰っていく時も、「⇒を押すと次ページ」です。縦書き資料の場合、カーソルキーと読んでいく方向が逆になってしまうので、ちょっとわかりにくい感じになってしまっています。カーソルキーに関しては、「古典籍資料」でも同様です。特に古典籍資料の場合は、縦書きがきわめて多いので、「⇐を押すと次ページ」という風になっているといいのかなと、さらに言えば、縦書き横書きのフラグをたてるなり自動認識を試みてみるなどして、縦書きと横書きで方向を変えられるといいのではなかろうかと思っております。

　そして、これに関連した困った問題として、サムネイル一覧の表示については、古典籍資料はちゃんと右から左に並んでいて、しかし、上述のように、古典籍資料でないものは左から右、という風になっています。近デジ／古典籍資料で対応が別れているのかもしれませんが、実際には、一つの検索語で検索して色々な時代の資料がヒットしたりすると混在するものを見ていくことになるので、これはなかなか頭の切り替えが難しいです（年のせいかもしれませんが）。この点でも、やはり、読んでいく方向に全体的にあわせる、といったような対応が期待されるところです。

3. 「著作権保護期間満了」と「文化庁長官裁定」を区別して検索できない（ような？）

　教材やその他、再利用を前提として国デコ資料を探す機会は結構あると思うのですが、文化庁長官裁定により公開されている資料だと、再利用に結構な制限がかかるのではないかと思います。ですので、検索の時点で除外してもらえるとありがたいのですが、私の使い方だと（見落としているだけだといいのですがもしそうなら見落としにくいようにわかりやすくしていただけるとありがたいです）、「インターネット公開資料」以上の絞込ができないので、各資料のページを開いてからいちいち確認していますがたまに見落としてしまって、あれれ、という風になります。

　なお、先日中の人におうかがいした際に、「APIでは区別できるようになっている」とおうかがいしたのですが、検索APIでの区別の仕方をうまく見つけられずにおります（というか、インターネット公開か館内限定か、というフラグもうまく見つけられておりません）。各資料のURLにアクセスすると、dcterms:rightsとかdcterms:accessRightsなどでアクセスできるようなのですが、検索APIでの500件上限という制約もありますので検索APIで絞込みできるとありがたいなあと思っているところなのです。いずれにしても、まだ自分では最新版のAPIを確認しきれていないのですが、できるなら、ぜひ確認して適用したいと思っております。また、一方で、国デコ検索ページでも、保護期間満了と裁定を区別できるように（あるいはそれがわかりやすいように）していただけるとありがたいです。

4. サムネイル一覧はもうちょっとたくさん出てくれるとありがたいです。

　これについては、これ以上申し上げることはありません。

他にもいくつかあったような気がするのですが、今夜飛び込みで入った仕事に注力していたら忘れてしまいました…。

それから、2.や4.に関しては、　このブログで何度かご紹介しているIIIFを導入していただければ基本的には解決できますので、その意味でもぜひご検討いただけたらと思っております。導入だけなら無料でできますので、ぜひともよろしくお願いいたします。

2016-08-08

Crowd4u+翻デジ+IIIF⇒国デコImage Wall お試し版～NDLのデジタルコレクションを図像から見ていくサイトです

IIIF IIIF応用

このたび、筑波大学の森嶋研究室によるCrowd4uプロジェクトと日本デジタル・ヒューマニティーズ学会による翻デジプロジェクトが連携して、

国デコ Image Wall お試し版（あるいは、国デコ・ウォール）

http://lab.ndl.go.jp/dhii/kunidecoview/

というものが暫定的に開設されました。ちなみに、「国デコ（くにでこ）」というのは、国立国会図書館デジタルコレクションの略称として一部で使われている名称です。

Crowd4uプロジェクトと翻デジプロジェクトでは、これまで、国立国会図書館近代デジタルライブラリー⇒デジタルコレクションのデジタル化資料を対象とした、２つのマイクロタスク・クラウドソーシングに取り組んできました。一つは、OCRによって識別した文字を人の目で見て正しいかどうか判定するものです。そして、もう一つは、「ページの中に図表や絵などが入っているかどうか」を人の目で判定するものです。後者は比較的単純なタスクなので、簡単に取り組める仕組みを用意して（これについては森嶋研究室からいずれご紹介があると思います）、「図表や絵の入っている国デコ資料のページの永続的識別子」をひたすら集め続けました。それをまとめてFlickrに載せてしまうという手もあるのですが、とりあえず、まずは手元で色々できるようにしてみようということで、自サイトに簡単な仕組みを構築しました。下記のようなページです。

f:id:digitalnagasaki:20160808023315j:plain

f:id:digitalnagasaki:20160808015011j:plain

目的は、とにかく、絵や図から見ていくことで、文字で探すこととは少し違った視点から新しい発見を得られないかということです。画像は毎回ランダムに表示されますので、刊行年を示すスライダーと、キーワードによる絞り込み機能を使って色々絞り込みつつ、毎回配置の異なる画像群を見ていく形になります。気になる画像があったらクリックすると、下記のように画像がある程度拡大表示されて、目次があれば目次が表示されて、当該画像が含まれる章や節のタイトルが赤字で表示され、さらに国デコの当該ページへのリンクと、IIIF対応ビューワへのリンク、さらに、IIIF Manifestが表示されますので、適宜選んでいただく形になります。

f:id:digitalnagasaki:20160808015610j:plain

国デコの書誌情報にすべて依存していますので、下記のように目次情報がない場合も結構あります。

f:id:digitalnagasaki:20160808020025j:plain

リンク先にはIIIF対応のUniversal Viewerも用意していますので、たとえば、Viewerの左下のアイコンをクリックすることで下記のようなURLを取得して誰かに送付し、同じページの同じ箇所を拡大表示して見てもらうこともできます。

http://universalviewer.io/?manifest=http://lab.ndl.go.jp/dhii/iiif/1939384/manifest.json#?cv=11&c=0&m=0&s=0&z=0.4401%2C0.117%2C0.6723%2C0.4177

このURLだと下記のような形で画像が表示されるはずです。

f:id:digitalnagasaki:20160808020258j:plain

あるいは、Miradorで一手間かければ、以下のような感じであちこちに登場する児雷也を比べて見てみることもできます。

f:id:digitalnagasaki:20160808022146j:plain

もちろん、普通に本として見ていったりすることもできますし、Miradorを使えば画像上にタグ付けをすることもできます。ぜひご活用ください、というほどのものではありませんが、何の折りに時々見ていただけると、だんだん画像が増えていく予定ですので、いつか、面白いものに出会えることがあるかもしれません。

今後の課題としましては、まだ画像数がそれほど多くないので、画像を増やしていくのが、まずなんといっても重要課題です。これは、徐々に増えていくと思います。

　それから、閲覧検索機能も、現段階では、ごく基礎的な機能しかありませんので、今後色々発展していくなかで、目的や使い方も変っていくかもしれません。特に、Miradorの開発がかなり進みつつありますので、それにあわせて結構便利になるかもしれません。

それと、技術的な事柄についても簡単に書いておきますと、とにかく、国デコのデータを引っ張り出して活用、これに尽きます。

　IIIF対応は、IIP Image Serverという、このブログでご紹介したことのある画像配信サーバソフトを導入し、国デコのJPEG画像からImageMagickのconvertコマンドでピラミッド型タイルTIFF画像を作成し、国デコのWeb APIを利用して書誌情報をとってきて画像ファイル情報とあわせて最低限の内容のIIIF Manifestファイルを作成するプログラムを書いて、あとは自動です。

　国デコImage Wallの方は、Jquery UIのSliderを利用して刊行年による絞り込みをできるようにして、JqueryのプラグインであるLazy Loadを使うことで大量画像読み込み時のサーバ・クライアント・ネットワークの負荷を低減させています。サムネイル画像や少し大きな画像の生成は、IIIF Image APIで行っています。以下のような感じです。

サムネイル：

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!300,220/0/default.jpg

少し大きな画像：

http://lab.ndl.go.jp/dhii/iiifimg/imgonly/1902016/0041.tif/full/!800,600/0/default.jpg

あとは、書誌情報や目次情報の表示の際にも、上記と同様に、しかし今度はJqueryを利用して国デコのWeb APIにアクセスして必要なデータを取得しています。なお、目次の該当箇所を赤地にしているのは、目次の各章・節に画像番号がついているのでその画像番号と対応する識別子とを比較して、該当するものを検出して赤字にしているだけです。これも国会図書館が頑張って目次情報に画像番号まで付けてくれているおかげなので、ありがたいことです。

さて、最後になりますが、Crowd4u+翻デジでは、マクロタスク・クラウドソーシング・デジタル翻刻という取組みも進めてきております。これも、もう少し時間がかかりそうですが、いずれ公開いたしますので、もうしばしお時間をください。

2016-07-30

簡易テクスト分析にVoyant-Toolsもいかがでしょうか？

先日ようやく、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点が開設する人文情報学概論（いわゆるデジタル・ヒューマニティーズ）の授業を履修した大学院生達によるVoyant-Tools日本語インターフェイスβ版が公開されました。そんなに腕に覚えがないのにデータを視覚化・可視化しなければらない人や、テクスト分析を手軽にちょっと試してみたい、という人向けの、簡単にちょっと使えるテクスト解析ツールです。そして、今回のバージョンでは、日本語の解析も普通にできます。分析したい頁のURLを集めてきて、まとめて貼り付けるだけで解析して色々な形で視覚化してくれます。複数ファイルをアップロードして解析することもできます。とはいえ、あんまり細かいことはできないのですが、Web環境でイージーに使える、というのと、ダウンロードしてJava環境でも使える（＝WindowsでもMacでもLinuxでも使える）というのが割と大きなメリットになる場合があろうかと思います。

　なお、このツールを作成・提供しているのは、カナダ・マギル大学のDHの准教授Stéfan Sinclair氏と、カナダ・アルバータ大学のGeoffrey Rockwell教授です。

では、たとえば、旧七帝大の総長の最近のご挨拶などのURLをちょっと分析してみましょう。

まずは、URL収集です。今回は下記のURLを使ってみています。

http://www.hokudai.ac.jp/introduction/president/message/282016.html
http://www.tohoku.ac.jp/japanese/profile/president/01/president0102/20160104.html
http://www.u-tokyo.ac.jp/gen01/b01_01_j.html
http://www.nagoya-u.ac.jp/about-nu/president/index.html
http://www.kyoto-u.ac.jp/ja/about/president/message.html
http://www.osaka-u.ac.jp/ja/news/topics/2016/01/files/20160104_01
https://www.kyushu-u.ac.jp/ja/university/president/message/150801message/

（なお、複数URLでなく、複数のファイルをアップロードすることもできます）

これらのURLを、下記のように、テキストエリアに貼り付けます。

f:id:digitalnagasaki:20160729235752j:plain

そして「結果を表示する」をクリックすると、下記のようになりました。Voyanto-toolsが以前から活用しているシーラスという機能を用いて、以前より高度な検索もできるようになった感じあります。

f:id:digitalnagasaki:20160730000026j:plain

しかし、このままでは助詞助動詞の類いが多く、文体の特徴はつかめるかもしれませんが、内容の特徴をつかむにはちょっと難しいような感じがします。そこで、「ストップワードリスト」を作って読み込ませてみます。ストップワードリストを作成するには、下記の図中の赤丸の箇所をクリックします。

f:id:digitalnagasaki:20160730032841p:plain

そうすると、下記のようなダイアログが表示されます。

f:id:digitalnagasaki:20160729235944j:plain

ここで、「ストップワード」のところの選択肢として「新規リストの作成」を選んで「リストの編集」をクリックすると、リストの編集画面が表示されます。この編集画面で、上記のシーラスの画像を見ながら、自分の分析には必要なさそうな単語をどんどん追加していきます。そして、「全体に適用」にチェックボックスがはいっていることを確認して、追加が終わったら「確認」をクリックすると、以下のような感じで、内容に関わる語が多く表示されるようになります。

f:id:digitalnagasaki:20160730000137j:plain

あとは、「スケール」をクリックしてみていただくと文書毎に選択できたりしますので、それで多少の傾向をつかんだりすることができるかもしれません。

また、ストップワードを全体に適用する、という操作を行ったので、他のツールも、、ストップワードが適用された状態で再描画されたはずです。それぞれに見てみてください。

さて、Voyant-tools 2.0の大きな目玉の一つは、複数文書を読み込んで文書館の関係を表示できるという機能です。Webブラウザのウインドウの右上の方にカーソルをあわせてから、赤丸をつけたアイコンをクリックしてください。そうすると…

f:id:digitalnagasaki:20160730000225j:plain

下記のようになります。（なお、ここで注意していただきたいのは、この表示では、それぞれのWeb頁のtitleタグを拾って表示しているので、どの文書がどれかわかりにくいことがあります。そういった場合に対応するためには、ローカルで個別にファイルを作成してアップロードする、という手もあります。ただし、ローカルファイルを使った場合、ファイル名ではなく、ファイル中のタイトルプロパティを用いることがあるようですので、あれ？と思ったらそこを確認してみてください。）

これは、メニュー・サブメニューが表示されるものとなっています。

f:id:digitalnagasaki:20160730000320j:plain

ここで「視覚化ツール」から「散布図」を選ぶと、各文書間の関係などが表示されます。また、「バブルライン」「タームラジオ」「テクスチャルアーク」など、選ぶと面白い結果を表示してくれる様々な機能が提供されていますんので、それぞれ試してみてください。下記は「タームラジオ」の例です。

f:id:digitalnagasaki:20160730020650j:plain

下記のグラフは、文書間の類似度を表示するもののようです。

f:id:digitalnagasaki:20160730035931j:plain

それから、今回のバージョンはスタンドアロンで利用することもできます。スタンドアロン版では、ネットにつながらない、サーバにつながらない、皆で一斉に使うと遅くなる、といった問題がなくなりますので、これはこれで結構便利です。詳しくは下記のURLをご覧ください。

https://github.com/sgsinclair/VoyantServer/releases/tag/2.1

なお、スタンドアロン版をパソコン上で使うにはJava実行環境が必要ですので、未インストールの方はとりあえずJava 実行環境をインストールしてください。

以下、最後まで読んでくださった方へのオマケとして、今回使った「ストップワードリスト」を掲載しておきます。無保証ですが、ご自由にご活用ください。

0
1
2
3
4
5
6
7
8
9
a
at
for
in
of
the
あり
ある
い
いる
おり
か
から
が
く
くだ
こと
ことに
この
これ
ご
さ
さらに
し
した
しま
する
その
それ
た
ため
だ
だけ
っ
って
て
てい
で
でき
できる
です
では
でも
と
という
として
な
ない
なく
など
なり
なる
に
において
における
について
の
ので
は
ば
へ
ま
ます
また
み
も
もの
や
よう
より
る
れ
れる
ろう
を
化
的
年

2016-07-01

「デジタルアーカイブ」を考える―「日本」がそのアイデンティティを取り戻すために

「デジタルアーカイブ」に関わる技術について、このブログでは主に扱ってきている。基本的に目指しているのは、そういう情報をきちんと共有して、「車輪の再発明」を避けつつ、無駄な投資も避けて、「デジタルアーカイブ」が適切な歩みを進めていくことに少しでも役立てばと思って、ブログだけでなく、呼ばれれば世界中どこでも参上して情報提供してきている。できれば交通費は出していただけるとありがたいが、大きな波及効果が見込まれる重要な会合なのにどうしても交通費を出せなければこちらの負担でおうかがいすることもやぶさかではない。

しかしながら、なぜ、自分がそういうことをしているのか、それによって何を目指しているのか、ということについてはあまり書いたことがなかったので、２ちゃんねる用語で言うところのチラ裏になってしまう上に、やや断片的になってしまうが、特に、最近重点的に考えていることを少しだけ書いておきたい。

明治維新を通じて、日本は色々なことが変わりつつ、変わらないところはそのままに、さらにその後の2度の大戦を経て現在に至っている。明治維新から2度の大戦の間に何が起きていたのかについては、わかっているようでわかっていないこともあり、国立国会図書館の近代デジタルライブラリーの登場と、その後の国立国会図書館デジタルコレクション（国デコ）の充実によって、それでも断片的とは言え、極めて多くの資料がデジタルで容易に入手できるようになり、いつでも参照できるようになってきた。筆者の専門に近いところでも、細かな情報が入手しやすくなったりして、戦前の専門分野の状況がやや立体的に見えてきたところがある。さらにそれが、どういう世界観、科学観の下で行われてきたのか、ということも断片的ながら見えてきて、現代と対比する面白さとともに、当時の人々に見えていた世界を、これまでよりも少し容易に、少し深く垣間見ることができるようになって、そのこと自体が興味深い体験となっている。それほど重要でない情報も含めた大量の資料に容易にアクセスできるようになることは、ややもすればメジャーな資料に偏ってしまいがちな認識から、世界・社会が常に多様性であってきて、色々な方向に進む可能性を常にはらみながら現在に至っているということを具体的に認識する契機になっている。これは健全な思考を形成する上で重要なことだと筆者は思っているので、そういう多様な全体を認識するための支援装置としての「デジタルアーカイブ」には深く期待している。また、そういう文脈からは、とにかく一定基準で大規模にデジタル化公開してしまう国デコのような在り方の重要性とともに、たとえば高橋晴子先生が長年続けておられる身装関連のデータベース群、特に「近代日本の身装文化」データベースのような、特定のテーマに絞り込みつつ研究者だけでなく専門家でない人にも理解しやすい情報を得られるようなものの有益さも忘れてはならない。そういったものが、Wikipediaにつながっていったり、あるいはまた、色々な人の様々な理解につながっていったりするような、多層的なつながりを形成し、それによって色々な時代の世界観や社会の多様性が共有されるようになっていくといいなあと思っている。

さらに期待しているのは、それよりも前、つまり、明治維新より前の世界観や社会の理解をより広げ、深めていくことである。たとえば、我々の「江戸」のイメージは、人にもよるが、わりと貧困であるように思われる。「江戸しぐさ」などというものが出てくるとなんとなく広まってしまって政府も一時は乗り出しそうになってしまったりして、そんなものはなかったと専門家が一生懸命否定する羽目になってしまったり、そうかと思えば「原発がなくなったら江戸時代に戻ってしまう」などとやたらと否定的なイメージで語られたり、あるいは、識字率が世界的にも極めて高かった、などといった断片的な良いイメージもある。さらに言えば、文明開化・和魂洋才といった形で、それ以前からの精神面は肯定しつつも技術面はとりあえず西洋のものを持ってきて接ぎ木しようとしたり、その一方で、廃仏毀釈によってその精神面もある種の分断が行われようとしたりしたようでもある。筆者が不勉強なこともあり、そこら辺の流れの正確なところはわからないのだが、敢えて言うなら、江戸時代、そしてそれ以前の「日本」（近代国家としてのそれではないにせよ）は、現代の我々から見ると、精神のみが断片的に受け継がれ、それ以外の部分は、なんとも座りの悪いまま「忘れてしまってもよい過去のお話」になってしまっているような感じがしているのである。

　このことに関して、少し前に経験したことがあったので書いておくと、フランスの人達とオープンデータとオープンアクセス、というか、日本で言うところの「デジタルアーカイブ」の話をしていた時に、会合に参加していた日本人から「文化の資料はそういう風に色々やっているが科学に関してはどうなのか」というような質問がでた。これに対する（いわゆる理系の）フランス人の回答が「これは科学の歴史なんだけど？」というものであった。ここで筆者が感じたのは、日本のアイデンティティの分散、というか、分断、であった。日本人にとっては、古い歴史の資料は科学とは関係ないものなのだが、フランス人にとっては歴史は文化社会の歴史であるとともに科学を発展させてきた基盤でもあるのだ。確かに江戸時代までの我々は、西洋から移入した科学とは少々異なる趣で自然の摂理を理解していた以上、そこにある種の分断があるのは仕方がないことではある。しかし、だからといって、我々がかつて自然を、そして世界をどう理解していたか、ということまで遠ざける必要はない。それぞれの時代の文化をうまく理解しようとするなら、どういう世界観・自然観の中で形成されているのか、ということを踏まえた上であってしかるべきだろう。また、そのようにして、我々が世界をどう理解してきたか、ということを知ることは、やや不安定化しつつある世界の中で、上記のように接ぎ木状態になってしまっているかのようにも思える日本のアイデンティティを多様なものの総体として適切に取り戻していく上で、大変重要になってくるのではないか、と思っている。たとえば、大蔵経（仏典の大規模叢書）には雨を降らせる方法を書いたお経、などというものがいくつも（1, 2, 3, 4, 5）入っていて、迷信と言ってしまえばそれまでだが、13世紀に高麗で刊行された木版大蔵経に残っていることが「デジタルアーカイブ」の高精細画像で確認できる状態のものもあり、空海がこの手法を用いていたとされているようなので、日本でも1000年以上前から受容されていた手法であり、さらに、Webでも公開されている古いお経の目録によれば、随・唐の頃にサンスクリットから漢訳されたものだということである。これらの一連のお経の文献学的な解説もWebで論文を読めるようになっている。（これはやや専門的なのでちょっと難しいかもしれないが）。こういったものが自然の摂理として受容され世界観の一部を形成してきた、ということを、こうしたWeb上の資料を通じて多少なりとも垣間見ることができる。その意味で、これもまた、日本のアイデンティティを多様な総体として取り戻していくことに資するものだと言える。ただ、お経となると、どうしても、そのまま皆が読んでいたかと言えばおそらくそうでもなく、むしろ、それが一般にどう受容されていたか、ということも含めた周辺状況が見えないことにはなかなか理解は難しい。

　そこで筆者が大いに注目かつ期待しているのは国文学研究資料館の「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」（歴史的典籍ＮＷ事業）である。これまでにも日本の古典籍の「デジタルアーカイブ」は早稲田大学や立命館大学をはじめ、各地で大規模に取り組まれており、その成果と貢献には多大なものがあるが、この歴史的典籍ＮＷ事業では、30万点の古典籍をデジタル化して公開し、研究に大いに活用できるようにするとしており、さらに、国文学だけでなく異分野との連携・融合を旗印に、総合的な日本の歴史的典籍の研究を推進していくことを目指しているようである。実際の所、味の素食の文化センターとの連携により、江戸時代の食文化に関わる資料を公開することになったり、古典籍中のオーロラに関する記述を探すイベントを開催したり（PDF5枚目の右側に記事が掲載されています）、さらには、医学関連書や本草学、和算等にも取り組んでいるということである。つまり、江戸時代以前を文学研究からとらえるのみでなく、当時の生活や自然の摂理も含めた総体として把握していこうとする取組みが、おそらくは、多様な古典籍の画像の公開とともに進められ、それらの成果も公開されていくのではないかと期待される。もちろん、さらに、画像へのタグ付けも組織的に進めていこうとしているということが先日の人文科学とコンピュータ研究会で発表されていたりもしたので、今後は、そういったタグを通じてアクセスしやすくなったり、解説もついたり、ということも、勝手ながら期待されるところである。今までも研究としてはそういう取組みが色々行われてきていて、本もたくさん出ているが、実際に当時の人々が読んでいたもの、見ていたものを比較的高精細な画像で参照しつつ読んだり理解したりしていく、ということができるようになるとしたら、これまでとはまったく違う状況が生まれてくるだろう。（もちろん、本そのものを手にとって見ているわけではないのでその点が不十分であることを忘れてはならないが）。くずし字が読めないとしても、挿絵が用意されている本も少なくない。たとえば、「閻魔（大）王」という言葉で理解するか、それとも下記の国文研オープンデータセットの画像の「閻魔（大）王」を見たり、さらに閻魔大王の筆記用具や従者の持物等に注目して拡大してみたりしながら理解するか、というのでは、ずいぶん理解の仕方が違ってくるだろう。

さらに言えば、くずし字学習アプリのようなものも出てきていて、すでに万単位でのダウンロードが行われたようであり、今後くずし字コンテンツがどんどん増えていくであろうことを想定すると、全体としてくずし字リテラシーがあがっていって、割と多くの人が読めるようになってしまうのではないか、という期待もしてしまう。

また、上記の画像の例は、単に物語への理解が深まるだけだと思われるかもしれないが、これは『仏鬼軍』という絵巻物語の一部であり、当時の信仰世界を当時の人々にとって理解しやすい形で提示したものであり、その意味では、当時の世界観の一部がここで垣間見えると言うことができるだろう。まだ十分に整理されたものではなく、筆者としても現在取り組んでいることの一つだが、これもまた「デジタルアーカイブ」のなせる技であり、また、IIIF Image APIによってこのようなことが極めて容易に可能となっているという点も強調しておきたい。

　さらに、歴史的典籍ＮＷ事業がある程度予定通りにいけば、かつての日本での自然の摂理への理解の仕方を含む様々な世界観の断片が、比較的高精細な画像を伴って理解できるような成果物としての「デジタルアーカイブ」として出来上がってくることが期待されるが、おそらくはそれだけでなく、様々な人が様々な関心と立場からかつての多様な世界観の断片を総体として再構築することができる環境としての「デジタルアーカイブ」もまた整備されることになると想定される。これらの「デジタルアーカイブ」こそ、「西洋」の導入によって我々のアイデンティティの中に生じた断絶をつなぎあわせて再びまとまった総体としての「日本」のアイデンティティを取り戻すための一つの大きな力になるのではないか、そして、そのようなアイデンティティこそが、日本社会が現代の様々な課題に向かっていくための揺るぎない足場になるのではないかと、筆者としては大いに期待するところである。

さて、筆者は、実は「グローバル化」のような話に割と入れ込んでいるのだが、このような話と、「グローバル化」の話をどのように折り合わせるかということについては、色々な観点がある。基本的には、ローカルなくしてグローバルはない、と考えているので、グローバルには常に意識を向けておく一方で、ローカルとは何か、ということを常に意識しておきたいと思っている。そして、実用的な問題としては、技術をグローバル化して、コンテンツはローカルのものをきちんとローカルとして提示する、さらに、グローバルな技術に対しても、ローカルを適切に対応させられないものはグローバル側に変わってもらう、ということが重要だと思っており、そのための交渉からプログラミングまで色々取り組んでいる。IIIF対応ビューワMiradorのページ遷移の方向を逆にする改良を行ったのはまさにそのような文脈からであり、この改良を報告したところ、ヘブライ語資料を扱っている人から喜びの声をいただくということもあった。黙ってグローバルを受け入れるとただ譲歩しただけで終わりになってしまうが、ただ文句を言うだけでなくこちらからアクションを起こせば色々な展開があり得る。TEIコンソーシアムに日本語SIGが設立されることになったのもこの文脈からのことで、ただ受容しようとしてうまくいかないから終わり、ではなく、グローバル側に対してローカルの要求をきちんとした手続きを経て提示していくことが肝要であると思っている。それは、ローカルにとってのメリットだけでなく、グローバルの価値を高めることにもつながり、結果としてローカルも含めた全体の価値が高まっていくことにもなる。それを理解しているグローバルなコミュニティには、積極的に参加し、協力し、連携していくことが、ローカルのためにも、つまり筆者の場合には、日本のためにも大きな糧になると思っている。

　…というのは技術のグローバル化の話だが、一方で、コンテンツローカルの話として、海外機関で所蔵されている日本資料をうまく統合していくという話がある。海外機関で所蔵されている日本資料が日本から適切に利用できるようになるためには、現在のようにIIIFが急速に普及しつつある状況では、海外の機関がそれぞれに自分のWebサイトから日本資料の画像を公開することになることが想定される。この場合、上述のようなグローバル技術へのローカルの組み込みが重要になってくる。ビューワでのページ遷移の方向などは典型的な話だが、縦書きの表記もそうだ。現状では、いずれもIIIFの問題ではなく、ビューワでなんとかすればよいという話なのだが（それで筆者はMiradorの改造を行ったのだが）、画像を共有するための枠組みであるIIIFは、今後さらに利便性を高めるべく、規格をより深化させてくるかもしれない。その過程で、日本資料に関する事柄がもし抜けてしまっていたら、海外機関で公開される日本資料が適切に扱えなくなってしまうかもしれない。そのようなことにならないように、引き続き規格の進展には注目し続ける必要があるだろう。　

　具体的な実践として、そのようなことに取り組んできたのだが、そうしてみると、やはりどうしても「日本」に行き着いてしまい、それをどうとらえるか、という問題に突き当たってしまうのである。DNAやらゴーストなどがささやいてくれるとよいのだが、そういうわけにもいかず、色々な状況に接しながらあれこれ考えていると、どうしてもアイデンティティが断片化してしまっているような感覚になってしまって、これをなんとかできるといいのだが、と思ってしまうのである。

　というようなことを、漠然と考えながら「デジタルアーカイブ」に取り組んでいる昨今である。まだまだ力不足・勉強不足なことも多く、上述のことも色々修正したり撤回したりすることがあるかもしれないが、基本的には、そのような観点から皆様のお手伝いを続けていけたらと思っている。

2016-06-30

「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました

このところ、IIIFの紹介に時間をかけてきましたが、今回は、もう一段深く資料を扱うための規格についてのご紹介です。

先にポイントだけ書いておきますと、まさにタイトルの通りです。もう少しかみ砕いて申しますと、人文学資料の中でも、特にテクスト資料に関しては、電子テクストというのがずいぶん前から使われてきています。電子テクストの場合、何はともあれ、皆が同じフォーマットで作った方が何かと便利です。そのためのルールが欧米を中心として1980年代から形成されてきていて、今やデファクト標準化しています。「デジタルアーカイブ」でも翻刻テクストをつけておこうと思ったりした場合、やはりこのルールに乗っておくのが後々何かと便利です。デジタル・ヒューマニティーズ分野の基幹技術の一つであり、Methodological Commons（方法論の共有地）を体現したものであるとも言えます。

このルールは、IIIFがそうであるように、すべてに完全適用できるものではなく、また、工業標準のように完全に確定したものでもありません。このテーマに取り組むコミュニティが形成されていて、その中で、全体に矛盾が生じないようにしつつ、様々なテーマに対応できるようなルールの拡張が続けられてきています。今もなお、新たにもたらされたテーマに対応すべく拡張が行われています。TEIについては、いくつか記事を書いたことがありますので、よかったら下記のURLなどをご参照ください。

TEIとoXygenの初歩 | Digital Humanities notes in Japan

http://nlp.nii.ac.jp/tawc/papers/W05_nagasaki.pdf

しかしながら、日本語資料への対応は未だ十分ではありません。これは、このコミュニティに参加する日本人が少なかったことが直接の大きな理由なのですが、なぜ参加する日本人が少なかったのか、ということを突き詰めていくと、あちらとこちらの課題がそれぞれ見えてきます。それについてはまた別に書くとしまして、長い議論の結果、日本語資料に対応するための環境を整備する分科会（Special Interest Group, SIG）を作ることになりました。TEI協会のWebサイト内にも、下記のように、この分科会がリストされ、これから本格的に始動することになります。なお、分科会の名称がEast Asian/Japanese、となっているのは、日本のテクスト資料が漢字文化圏の伝統と不可分であり、それを追究していくことが同時に東アジア全体のテクストの扱いともかなり重なってくるため、このような名称が今後の広がりを考える上で有益だろう、という判断が背景にあります。

TEI: Special Interest Groups (SIGs)

TEI: East Asian/Japanese SIG

これに関して画期的なのは、これまで特定の言語文化名を冠した分科会を作ったことはなかったので、ついにそこに踏み込むことができたという点でしょう。昨今の日本での「デジタルアーカイブ」の流れにおいても、この機会を最大限活かしていただけたらと思っています。

さて、この分科会での当初の課題は２点です。一つは、日本語に資料に対してこのTEIを適用する場合の、取り組みやすいガイドラインを作成することです。そして、もう一つは、そのガイドラインを作成していくなかでどうしても全体のルールに拡張が必要であるということになった場合に、それを行うことです。特に後者は、それを行うにあたってまずは分科会を作ることがTEIコンソーシアムの慣例の一つなので、そこに向けた第一歩を踏むことができた、ということもできるでしょう。

それから、これまで何度かご紹介してきたIIIFとの関係はどうなっているのかというと、翻刻（テキスト起こし）のところで深くつながっています。すでに結構盛り上がっていまして、IIIFで翻刻タグをつけることができますが、これをどういう風にTEIで表現するか、あるいは、TEIで書かれたものをどのようにIIIFで表現するか、といったことについての取組みが世界各地で始まっています。日本語資料の場合、どちらかと言えばテキスト構築よりも画像化してデータベースを作る方向に力を入れる傾向が強かったように思いますので、IIIFからTEI、つまり、画像に翻刻情報をつけていくところからテクストの構造化の議論に入っていくようにするのが一つの手なのではなかろうかとも思っています。

いずれにしましても、特にテクストを扱っておられる方々におかれましては、この機をうまく活用していっていただけたらと思っております。近々、これに関する会合を予定しておりますので、今後ともよろしくお願いいたします。

2016-06-21

「デジタルアーカイブ」における日本語古典籍＋翻刻とIIIF、そして皆様の取組み

IIIF IIIF応用

このところご紹介を続けている「デジタルアーカイブ」の画像共有のための国際規格、IIIFですが、今回は、日本語古典籍の扱いについての近況と、みなさまの取組みについて、知る範囲で少しご紹介させていただきます。

IIIFではあれができる、これができる、という話をずっとしてきました。一方で、ほとんど西洋の資料を中心に展開してきた話でしたので、日本や東アジアの資料にうまく対応できるのか、というところは気になっていたところかと思います。

規格に関する課題も、深く追求していくと色々あるのですが、それはかなり深い問題にまでつながるような話でもあり、文字の問題に行き着いて、Unicodeをどうするかということになってしまったりして、そもそも現在のコンピュータ上でうまくできるのかどうかという話になってしまうことも少なくないと思います。比較的浅いところでは、Linked Dataとして作られているにもかかわらず実質的にアクセスできないURIが大量に生成されてしまうという点を複数の人が問題視していますが、これはこの規格の問題というよりは運用上の問題であり、かつ、この規格が下敷きとしている別の規格では本来はそうしてはいけないということになっているのではないかと思います。（この点、私が運営するシステムでもそうなってしまっているので早急な対応が必要です。）

以前にも書いたように、色々な課題は基本的にコミュニティとして解決しながら先に進めていくということになっているようですので、やはり、一度対応させたらそれで終わり、ではなく、何らかの形で継続的にコミットしていけるような体制を作っていく必要があろうかと思います。

それはともかく、ここでは、規格はとりあえずこのままでなんとか対応するという前提で、表示の問題に限定して見ていきましょう。もちろん、ソフトウェアがフリーなので、各自で自由に自分達の資料に対応できるように改良してしまえば良い、というのがこの場合の建前なので、実際にソフトウェアを改良して対応させてみました。

具体的には、主にハーバード大学・スタンフォード大学等で開発されているIIIF対応ビューワ、Miradorを、突貫工事的に、縦書きのタグを表示させたり、左から右にしかページ遷移できなかったものを、右から左であるという設定をmanifestファイルにルール(この場合、 Presentation API )通りに書けば、それが反映されるようにしてみました。具体的には、下記のURLにてどういう風になっているかを見てみてください。

Mirador Viewer 縦書き右左対応版

（このMiradorのダウンロード）

…と、ちょうどこれを書いている時にスタンフォードの人がメールで知らせてくださったのですが、右左対応版も含むレイアウト全般に関する大幅な改良が施されたMiradorが開発中なのだそうです。上記のものは、その本家のきちんとしたものが公開されるまでの暫定的なものということになりますが、

このようにして、必要に応じて色々修正できること
本家としてはきちんとグローバルな文化資料に対応すべく改良を続けていること

という2点をご理解いただけますとありがたいです。

さて、上記のMiradorビューワでは、翻刻テクストがアノテーションとして表示されるようになっていますが、このデータは、カルガリー大学のX. Jie Yang 先生が入力してくださったものです。Miradorの場合、ライセンス関連の表示は右上のℹボタンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160621035910j:plain

入力システムは、Miradorではまだちょっと書きにくかったので、別途、OpenSeadragonを利用してざっと作成しました。下記のようなものです。

f:id:digitalnagasaki:20160621000817j:plain

もし、これを使って国文研データセットへの翻刻やタグ付けなどやってみたいという方がおられましたら私までお声がけください。ユーザ登録さえすれば誰でも使えます。（というのをクラウドソーシングと呼んでいいかどうかはちょっと悩みどころです。）成果はすべて公開されてしまいますが、すべてのタグに「誰がいつつけたか」の情報が付加されますので、attributionはきちんと保持されます。

私のところは、こういう感じで細々と合間合間に少しずつ色々進めておりますが、最近、日本でもIIIFへの取組みが徐々に広がりを見せておりまして、口頭でも色々なところで採用や採用への検討についておうかがいしているのですが、現在Webで見られるものに以下のものがあります。

神崎正英さんによる外部画像へのアノテーションシステム / Image Annotator

画本虫撰　Image Annotator

大正新脩大藏經図像部第9巻　Image Annotator

京都大学人文科学研究所守岡知彦先生による拓本文字データベースへの応用 / EsT image-resource

EsT image-resource = rep.id=zinbun...takuhon...kaisei...H1002...xywh=4298,2734,96,107

一般社団法人学術資源リポジトリ協議会によるデモサイト

IIIFのデモサイトの解説

Mirador Viewerによるデモ

実はあともう一カ所、しばらく前からIIIF Image APIに対応している組織があるそうなのですが、アクセスの仕方がわからないので、確認ができてご紹介しても良いということになったらご紹介させていただきたいと思います。

ところで、上記の翻刻を見て、気がついた人もおられると思いますが、あのままではテクストとしてはあまり良い案配ではありません。それをなんとかしようという動きがTEI関係で始まっておりまして、個人的にも、TEI とIIIFをいかにうまく連携させるかということに取り組んでおります。基本的に、タグをつけてもらったら、それをTEI P5 Guidelinesの<sourceDoc/>に自動的にマッピングしてしまって、さらに、リニアなテクストにも変換するというオーソドックスなアプローチを考えています。それについては9月末にウィーンで開催されるTEI会議で報告する予定なのですが、国内でもいずれどこかでご報告させていただけたらと思っております。ご興味がおありの方はぜひお声がけください。

というようなことで、引き続き、よろしくお願いいたします。