「デジタルアーカイブ」における日本語古典籍＋翻刻とIIIF、そして皆様の取組み

このところご紹介を続けている「デジタルアーカイブ」の画像共有のための国際規格、IIIFですが、今回は、日本語古典籍の扱いについての近況と、みなさまの取組みについて、知る範囲で少しご紹介させていただきます。

IIIFではあれができる、これができる、という話をずっとしてきました。一方で、ほとんど西洋の資料を中心に展開してきた話でしたので、日本や東アジアの資料にうまく対応できるのか、というところは気になっていたところかと思います。

規格に関する課題も、深く追求していくと色々あるのですが、それはかなり深い問題にまでつながるような話でもあり、文字の問題に行き着いて、Unicodeをどうするかということになってしまったりして、そもそも現在のコンピュータ上でうまくできるのかどうかという話になってしまうことも少なくないと思います。比較的浅いところでは、Linked Dataとして作られているにもかかわらず実質的にアクセスできないURIが大量に生成されてしまうという点を複数の人が問題視していますが、これはこの規格の問題というよりは運用上の問題であり、かつ、この規格が下敷きとしている別の規格では本来はそうしてはいけないということになっているのではないかと思います。（この点、私が運営するシステムでもそうなってしまっているので早急な対応が必要です。）

以前にも書いたように、色々な課題は基本的にコミュニティとして解決しながら先に進めていくということになっているようですので、やはり、一度対応させたらそれで終わり、ではなく、何らかの形で継続的にコミットしていけるような体制を作っていく必要があろうかと思います。

それはともかく、ここでは、規格はとりあえずこのままでなんとか対応するという前提で、表示の問題に限定して見ていきましょう。もちろん、ソフトウェアがフリーなので、各自で自由に自分達の資料に対応できるように改良してしまえば良い、というのがこの場合の建前なので、実際にソフトウェアを改良して対応させてみました。

具体的には、主にハーバード大学・スタンフォード大学等で開発されているIIIF対応ビューワ、Miradorを、突貫工事的に、縦書きのタグを表示させたり、左から右にしかページ遷移できなかったものを、右から左であるという設定をmanifestファイルにルール(この場合、 Presentation API )通りに書けば、それが反映されるようにしてみました。具体的には、下記のURLにてどういう風になっているかを見てみてください。

Mirador Viewer 縦書き右左対応版

（このMiradorのダウンロード）

…と、ちょうどこれを書いている時にスタンフォードの人がメールで知らせてくださったのですが、右左対応版も含むレイアウト全般に関する大幅な改良が施されたMiradorが開発中なのだそうです。上記のものは、その本家のきちんとしたものが公開されるまでの暫定的なものということになりますが、

このようにして、必要に応じて色々修正できること
本家としてはきちんとグローバルな文化資料に対応すべく改良を続けていること

という2点をご理解いただけますとありがたいです。

さて、上記のMiradorビューワでは、翻刻テクストがアノテーションとして表示されるようになっていますが、このデータは、カルガリー大学のX. Jie Yang 先生が入力してくださったものです。Miradorの場合、ライセンス関連の表示は右上のℹボタンをクリックすると下記のように表示されます。

f:id:digitalnagasaki:20160621035910j:plain

入力システムは、Miradorではまだちょっと書きにくかったので、別途、OpenSeadragonを利用してざっと作成しました。下記のようなものです。

f:id:digitalnagasaki:20160621000817j:plain

もし、これを使って国文研データセットへの翻刻やタグ付けなどやってみたいという方がおられましたら私までお声がけください。ユーザ登録さえすれば誰でも使えます。（というのをクラウドソーシングと呼んでいいかどうかはちょっと悩みどころです。）成果はすべて公開されてしまいますが、すべてのタグに「誰がいつつけたか」の情報が付加されますので、attributionはきちんと保持されます。

私のところは、こういう感じで細々と合間合間に少しずつ色々進めておりますが、最近、日本でもIIIFへの取組みが徐々に広がりを見せておりまして、口頭でも色々なところで採用や採用への検討についておうかがいしているのですが、現在Webで見られるものに以下のものがあります。

神崎正英さんによる外部画像へのアノテーションシステム / Image Annotator

画本虫撰　Image Annotator

大正新脩大藏經図像部第9巻　Image Annotator

京都大学人文科学研究所守岡知彦先生による拓本文字データベースへの応用 / EsT image-resource

EsT image-resource = rep.id=zinbun...takuhon...kaisei...H1002...xywh=4298,2734,96,107

一般社団法人学術資源リポジトリ協議会によるデモサイト

IIIFのデモサイトの解説

Mirador Viewerによるデモ

実はあともう一カ所、しばらく前からIIIF Image APIに対応している組織があるそうなのですが、アクセスの仕方がわからないので、確認ができてご紹介しても良いということになったらご紹介させていただきたいと思います。

ところで、上記の翻刻を見て、気がついた人もおられると思いますが、あのままではテクストとしてはあまり良い案配ではありません。それをなんとかしようという動きがTEI関係で始まっておりまして、個人的にも、TEI とIIIFをいかにうまく連携させるかということに取り組んでおります。基本的に、タグをつけてもらったら、それをTEI P5 Guidelinesの<sourceDoc/>に自動的にマッピングしてしまって、さらに、リニアなテクストにも変換するというオーソドックスなアプローチを考えています。それについては9月末にウィーンで開催されるTEI会議で報告する予定なのですが、国内でもいずれどこかでご報告させていただけたらと思っております。ご興味がおありの方はぜひお声がけください。

というようなことで、引き続き、よろしくお願いいたします。