オープンライセンス表示に一工夫を

 あけましておめでとうございます。2018年も色々ありましたが、国立国会図書館デジタルコレクションでIIIFが採用されるという、業界的には大きな出来事がありましたね。IIIFは元々、フランス国立図書館・英国図書館が言い出しっぺに名を連ねている上に、バイエルン州立図書館でも採用して、米国議会図書館でも2018年6月にはIIIFカンファレンス(年次総会)を開催することになっていて…というタイミングで、ようやく日本の国立国会図書館もデジタル化資料共有の輪の中に入ってくれたということで、ほっと一安心の2018年でした。がんばってくださった関係者の方々には感謝すること至極です。

 ところで、この業界をしばしば熱くさせるパブリックドメイン資料の公開とその扱いについて、昨年、少し面白い話がありました。私も少しだけ話をさせていただいた、東京大学学術資産アーカイブ化推進室によるセミナーでのことだったのですが、著作権保護期間が終了していることが確実な資料に関して、「できれば利用したことを明示してもらいたい」というお願いに関するリーガルツールを作ると良いのではないか、という話が出てきたのでした。

 パブリックドメイン資料に関する再利用についての考え方は、立場によってかなり意見が変わってくる話なのですが、私が話をしてきた限りでは、大体以下のような立場に集約できるように思えます。

 

1.パブリックドメイン資料はとにかくなんの規制もなく自由に使えるべき

2.パブリックドメイン資料公開の予算を確保し続けるには利用実績の提示が必要だから:

 2-1.アクセス数が減ると利用実績を説明できなくて困るので:

  2-1-1.再配布は禁止

  2-1-2.ダウンロードも禁止

 2-2.アクセス数はともかく引用・利用を明示したいので:

  2-2-1.引用・利用等についての明示を(義務化|お願い)

  2-2-2.引用・利用等についての連絡を(義務化|お願い)

  2-2-3.頒布物の現物の提出も(義務化|お願い)

3.パブリックドメイン資料でも公序良俗に反する使い方をされると関係者に迷惑がかかるかもしれないので

 ○○○は禁止

 

 完全な利用者サイドとしては1.が望ましいのですが、一方、「誰が使ってるかもさっぱりわからないものをただ義務意識のみに頼って公開し続けるべく予算配分を安定的に行う」ことができるほどの意識が高い人々が多数を占めていたり大きな力を持っていたりする組織はなかなか多くはないように思われます。公開者サイドに立つこともある身としては、2.の事情の切迫感もひしひしと感じます。特に予算担当者や意志決定に関わる方々に対しては、アクセス数の数字を示すグラフの線の角度が良い意味でも悪い意味でも説得力を持ち得ることは想像に難くありません。

 しかしながら、貴重な古文書・古典籍の画像をデジタル化公開したとして、そのものの価値を理解して日々アクセスしてみようと思う人がどれだけいるか、ということを考えたとき、アクセス数を根拠とする予算計上が長続きするような資料を持っているところは決して多くはないでしょう。多くの人が見て面白がりそうな資料をいくつかデジタル化公開したとしても、一通り見終わったら、何度も見に来たり、定期的に見に来てくれたりする人はごく稀になるでしょう。Web公開した場合、入場制限もないのですから、「今日は混雑しているから来週にしよう」という風にもなりにくく、見たいと思った人も最初の数日間に一通り見てしまって、最初だけは大量アクセスを稼げたとしても、再訪を期待できるものかどうか、ということにもなってしまいかねません。それでもアクセス数を稼ごうとするための色々な努力はそれはそれであってもよいと思いますし、私自身もそういう工夫は色々してみております。ただ、どうしてもそれだけでは限界があります。Webに資料が増えれば増えるほど、利用者の皆さんが自分のところのデジタル化古文書・古典籍を見るために割いてくださる時間は減っていってしまうのですから、やはり別なロジックがないと持ちこたえられないところが多いのではないかと思います。

 そこで出てくるのが、「専門家に明示的に利用してもらうこと」です。プロかアマチュアかには必ずしもこだわらないのですが、資料の内容やその価値を理解できる人に、現代人が理解できるきちんとした文脈の中に位置づけてもらないがら資料を使ってくれる形になれば、それは、一人の利用者が一回Webサイト上で資料を見ることに比べると、社会への波及効果としては格段の違いがあります。資料の価値が再発見され、現代社会での新たな位置づけを見いだしていくことができるとしたら、そこには資料を公開した意義が別の形で姿を表すことになると言えるでしょう。このロジックを整理することで、専門家による利用は単なる1アクセスとは異なるという評価の仕方を踏まえることができるなら、デジタル化資料の公開を続けることも多少は容易になるでしょうし、また、専門家による利用を促すことへのインセンティブが高まるのだとしたら、結局のところ、それは資料の価値を再確認して社会に波及させていくという本来あるべき状況を実現することを促すことになるのですから、むしろ歓迎すべき状況になると考えてもよいのではないかと思います。

 そうすると、専門家がなるべく使いやすいような状況を作っていくことが一つのポイントになります。その場合、ダウンロードも再配布も妨げないようにすることが近道でしょう。禁止すると、許諾のための手続きが発生して、その分の人件費がかかります。手続きを定めたり改訂したりするための手続きも発生します。担当者が起案して、会議にかけたり上司が決裁したりするのにかかる時間(=人件費)を埋めるだけの価値のある業務なのかどうか、さらに、それでいながら、利用者にも手間をかけさせることも考えた場合、果たしてそれでいいのかどうか、ということを考えていくなら、許諾手続きを課すことはなるべく避けた方がよいという判断は十分にあり得るでしょう。

 上記のまとめの2-2.以下は、とりあえず気持ちとしては「義務化」と「お願い」の2種類があるように思われましたので、一応、そのように書いてみております。ただ、実質的にはパブリックドメイン資料の利用に関して何らかの義務を課すことは、日本では意味を持たないようですので、義務化をすることによるルールの空洞化を招くよりは、最初から「お願い」にしてしまった方がよいのではないかという気もしております。たとえば、京都大学貴重資料デジタルアーカイブでは、まさに、2-2-3.の「お願い」を提示しています東京大学総合図書館でもこれに続くかのように同様の条件(お願い)を提示しています。

 上記のまとめのうち、3.に関しては、特に申し上げることはありません。資料の性質によってはそういうこともあるかもしれませんが、そのことと、利活用可能性を高めることによる社会への効用とを今一度天秤にかけて検討してみていただけたらと思うばかりです。

 

 さて、そのようなことで、2-2.以下を「お願い」として提示することは、パブリックドメイン資料の公開を続けていくための比較的穏当な道であるように思えます。すでに京都大学東京大学では文章で提示しているのだから、それと同様に文章で書いておけばよいのではないか、ということは、ここまでの話だとその通りなのですが、この件には、もう一つの重要な観点があります。それは、機械可読性、です。

 Webでのデジタル化資料は、今後、各所で様々に利活用されることが命脈を保つ道となっていく可能性が極めて高く、そのためには、「この資料はどういう風に扱ってもよいのか」ということをコンピュータプログラムが判定して、CC BYのURL (https://creativecommons.org/licenses/by/4.0/deed.ja) がライセンス欄に書いてあれば、権利者情報を決して消さないようにして、CC BY-NCのURL (https://creativecommons.org/licenses/by-nc/4.0/deed.ja) が書いてあれば、商用利用サイトにはデータが行かないようにする、といった案配で、URLを見ながら処理を振り分けていくことが必要でありかつ重要になっていくと思われます。この内容自体も機械可読にしようという話もあるようですが、たとえばクリエイティブコモンズライセンスの場合、すでに世界中に広く知られているため、プログラム開発にあたっても、クリエイティブコモンズライセンスにおいて用意されている数種類の選択肢を実装するだけでよいので、URLだけでもかなりの程度通用するはずです。

 しかし、このような環境下では、「パブリックドメイン資料である」と宣言(https://creativecommons.org/publicdomain/zero/1.0/deed.ja)してしまった場合、諸々のお願いに関する情報は伝わらないまま、所蔵者・公開者情報もないままにデータが流通することになってしまう可能性が高いです。多くの利用者は、利用に関しての手間は極力減らしたいのですし、プログラム作成にあたっても、ややこしい処理はなるべく減らしたいのですから、パブリックドメインを宣言している資料を取り扱うのであれば、細々とした情報を付与させようとするインセンティブはかなり低いでしょう。しかも、Webサイトごとに、「お願い」が書いてある頁を読み取ってその意味を検討する必要があるということになると、これもかなり大変ということになります。

 なお、これに関連するものの一つにRightsstatements.orgによる「NO COPYRIGHT - CONTRACTUAL RESTRICTIONS」という宣言があります。これも 

https://rightsstatements.org/page/NoC-CR/1.0/?language=en というURLが用意されるので、少し良い感じがします。ただ、この場合、「何らかの制限があることはわかったが、では実際にはどういう制限があるのか」ということで、実際には極めて多様な内容が想定され、また、それゆえに、それを具体的に説明したWeb頁やその他の情報をいちいち確認する必要があり、やはり、上記のような機械処理にはそぐわないということになるでしょう。

 そこで、間(?)をとって、あるといいかもしれないと思っているのは、2-2-1.、2-2-2.、2-2-3.の各項目をあらわすURL(とそれによって指し示される「お願い」の内容を書いたWeb頁)です。このことが、冒頭に挙げたセミナーで話題となったのでした。もちろん、URLを決めるだけでは十分な利便性を確保できることにはならないため、その内容についてもWeb頁を作成すると同時に広く告知を行い、さらに、そのURLを利用する機関・サイトを増やしていくことで、これらのURLに対応したプログラム作成を行うことの実効性を高めることができれば、やがてこういうものがデファクトスタンダードになっていって、全体として利便性が高まることがあるかもしれません。しばらく前から考えていたことでしたが、上記のセミナーで、特に渡辺智暁先生とお話させていただき、色々とコメントをいただいたことで、この方向性に活路を見いだせるのかもしれないという気持ちが少し高まったのでした。これはライセンスの話ではないので「リーガルツール」などという風に考えるとよいのではないかというお話もいただいたのでしたが、しかし法律はまったく素人なので、やはりそういう方面に通じていて、しかも比較的中立的な感じのところが音頭を取ってくださるとありがたいと思っているところです。

 また、もう少し考えてみると、専門家であれば、所蔵者についての情報を欠くと自分の情報の信頼性が損なわれる場合があるので、2-2-1.については、敢えて書かずとも勝手にやってもらえることの方が多いでしょう。そうすると、設定する意義が大きいのは、2-2-2.や 2-2-3.ということになるでしょうか。

 

 ということで、オープンライセンスに関わっておられるみなさま、本年は、ここら辺のことについて、色々ご検討をいただけますと大変ありがたく存じます。

 

 本件に限らず、デジタルアーカイブに関しては色々考えていることがありますので、また、折りをみてあちこちに書かせていただこうかと思っております。みなさま、本年も、よろしくお願いいたします。

 

歴史地名データをNeatline/Omekaにマッピング

昨年度、人間文化研究機構+H-GIS研究会から、歴史地名データが公開されました。これは単なるテキストデータなのですが、それゆえに大変画期的なものです。何が画期的かと言えば、みんなで自由に加工して好きなように使えるからです。きれいな地図も絵も何もありませんが、代わりに、このデータを使って自分で便利な地図や絵を作成することができますし、それをきれいにデザインすることもできます。さらに、再配布も可となっているため、このデータを使って自分で作った地図や絵をネットに公開することもできます。

 

さて、そこでさっそく、この地名データを使って何かしてみたい・・・と思いつつ半年ほど過ぎてしまいましたが、このたびようやく、諸事情によりこれをいじらねばならない状況になりましたので、少しいじってみました。とりあえず今回は、「城」に関する地名をNeatline/Omekaの地図上に一括マッピングしてみる、と言う内容を例としてあげてみます。たとえば以下のような感じになります。こちらでマップそのものも閲覧できます。

 

f:id:digitalnagasaki:20181121095302p:plain

 

この方法について、以下にご紹介していきます。

 

まず、必要なものは、OmekaにCSVImportプラグインとNeatlineプラグインをインストールしたものです。Omekaのインストールについてはこちらをご覧ください。自力でインストールせずとも、どこかにOmekaのインスタンスを用意してくれる人/部署を見つければよいのですが、自分のパソコンにもインストールできます。

 

 さて、準備ができましたら次はデータの加工です。ここで微妙にややこしいのが、Omeka/Neatlineの場合、メルカトル図法での座標情報を要求してくる点です。一方、歴史地名データでは世界測地系(WGS 84)を用いているため、これを変換する必要があります。この点はNeatlineユーザの間ではわりとよく知られているようで、こちらJavascriptでの変換プログラムも提供されています。これに加えて、データ形式

GEOMETRYCOLLECTION(POINT(15111247.565786 4161286.75838))

という感じにしてOmeka上の(ダブリン・コアの)Coverageフィールドにマッピングしておくと、Neatline地図上にプロットできる座標情報になるみたいです。というわけで、とりあえず、最後のフィールドにこれを追記したものをこちらに置いておきます。計算式が間違っていたり、データがずれていたりしたらお知らせください。

 

 それでは次に、この29万件以上のデータからお城のデータだけを取り出してみます。ここで大変ありがたいことに、この歴史地名データには「属性」がついていて、地名_属性.txt というファイルにその説明が記されています。これを見ていくと、

16,"建物","城",1

という行があります。この16番というのが 地名.txtの「属性」フィールドに対応しているようですので、「属性」フィールドが16となっているものを取り出してみます。この場合、データ量が結構多いので、grep などを使うと便利でしょうか。取り出した上で、さらにフィールド名を先頭行に入れたものがこちらになります。206件ありました。

 

 ここまでできたら、あとはOmekaに取り込むだけです。が、まず最初に大事なのは「コレクション」を作っておくことです。今回は「お城マップ」というコレクションを作成しています。

 次に、以下のようにしてCSVImport機能で任意のコレクション(この例では「お城マップ」)を指定してから

f:id:digitalnagasaki:20181121102449p:plain

 

このファイルを読み込ませると、以下のような感じになりますので、少なくとも Coverageとtitleだけはきちんと選択しておいてください。あとはお好みで。

 

f:id:digitalnagasaki:20181121102212p:plain

 

インポートが終わったら、次はこのデータをNeatlineの地図にインポートします。

 

Neatlineの地図は、コレクション単位等でアイテムをインポートすることができます。この際に、coverageに所定のフォーマットのデータが入っていると、地図上にいきなり一括マッピングしてくれます。今回の場合ですと、以下のような感じです。

 

f:id:digitalnagasaki:20181121102630p:plain

 

加工可能な形でデータが公開されていると、このように、色々自由に活用できるという点が大変ありがたいですね。あとは、まあ、ぼちぼち、手で修正するもよし、もっとデータを加工してからCSVImportするもよし、色々楽しめるのではないかと思います。

 

 

日本大学文理学部のシンポでIIIFの話をします。

 明日は日本大学文理学部で行われるシンポジウムで少しIIIFのご紹介をさせていただきます。情報感度が高い人には「またあの話か」という感想しかないだろうと思いますが、経団連の会長が今期の人になってようやくメールを使うようになったという話題が出たり、某大辞典デジタル版が5万字のうちの多くの文字がパソコンで表示できないという前提で切り出し文字画像で作成され、しかもWindows対応のみのスタンドアロン版で作成発売されてしまったりと、まだまだ意志決定をされる方々のところまでIT関連の情報を共有することは我が国にとって大きな課題であるように改めて思っておりまして、最新のシステムの開発に没頭したい気持ちも強いのですが、しかし、地味にきちんと、なるべくわかりやすい言葉で現在の状況を広めていく努力がつねに重要であると肝に銘じているところです。

 

 ところで、今回のお話を準備するにあたって、少し対策が必要な状況が発生して、まあなんとか解決できたので、もしかしたらみなさんのお役に立つかもしれないと思い、メモとして残しておきます。

 

 今回も、トロント大学図書館で開発されているOmeka IIIF Toolkit を事例の一つに使おうと思っていたのですが、以前にhttpで登録したIIIFコンテンツやNeatline上のannotationのIIIF Manifest / IIIF Image APIURIが、httpsにリダイレクトされるようになったことでなんだかうまく動かなくなってしまったのです。リダイレクトの仕方をきちんとすればちゃんと動くのですが、しかし、この状況では、もはやhttpのURI自体に意味がなく、なるべくhttpsに変更してしまった方がいいように思ったのです。

 もちろん、一つずつ手で直していくこともできますが、それではどうにもこうにも大変です。そこで、Omekaのデータが実際に登録されているMySQLのデータベース上で直接書き換えてしまおう、というわけです。

 MySQLのデータベース自体のいじり方は、色々なサイトで解説がありますのでそちらに譲ります。ここでは、mysql -u root -p で use <Omekaが使っているDB名> で、とりあえず当該のDBを触れる状態になっていることを前提とします。

 ここでは、omeka_element_texts と omeka_iiif_items_cached_json_data のテーブルに、修正すべき内容が含まれているようです。そこで、それぞれ、

 

update omeka_element_texts set text=replace(text, 'http://unique_name', 'https://unique_name.');

update omeka_iiif_items_cached_json_data set data=replace(data, 'http://unique_name', 'https://unique_name');

 

という風にすると、Omekaに登録した情報やNeatlineで付与したannotationの類いを一通り修正できるようです。ただ、気をつけていただきたいのは、unique_nameのところがちゃんとユニークでないと、余計なところまで変換してデータが全部ダメになってしまうという点です。当然のことながら、作業をする前にダンプはとっておきましょうね。

 

欧米の文献学者によるデジタル文献学の最先端と欧州デジタルアーカイブの最先端

来週月曜日(9/10)、一橋講堂(東京都千代田区)にて、無料公開国際シンポジウムが開催されます。参加費無料・要登録で、登録は本日までです。バート・キャベル先生、ユリア・ノルデグラフ先生、スーザン・シュライプマン先生による、同時通訳付きのご講演です。文化資料を対象としたデジタル技術の研究活用についての最新動向を、日本とヨーロッパの例を中心として日本語で聴講できるまたとない機会です。まだ残席ございますので、ぜひご登録&ご参加をお待ちいたしております。詳しくはこの記事の下をご覧ください。

 

無料公開国際シンポジウムの背景とさらなるお誘い

このブログでも何度か触れてきましたが、欧米の文献学者の中には、デジタル媒体をきちんと活用していこうという流れが強くあり、それを反映したデジタル化ガイドラインも作成され、技術の進歩にあわせて改訂が続けられてきています。そのガイドラインの策定・改訂を欧米で長らく担ってきたTEI (Text Encoding Initiative) 協会が、今回初めて、欧米を離れて日本で年次大会を開催します。欧米の文献学者(IT専門家ではなく)が主導するデジタル文献学を日本で知ることができるという、絶好の機会になります。年次大会の事前申し込みは締め切りましたが、当日申し込みも可能ですので、ぜひお越しください。

 

無料公開国際シンポジウムをもう少し詳しく

これにあわせて開催される日本デジタル・ヒューマニティーズ学会の年次国際学術大会JADH2018と合同で開催されるのが、冒頭でご紹介した、無料国際シンポジウムです。

ロバート・キャンベル先生は、すでに日本でも有名な先生ですが、現在は、国文学研究資料館の館長として、日本古典研究のための大規模デジタル化プロジェクトを率いておられます。

ユリア・ノルデグラフ先生は、音声・映像や文化遺産の保存と利活用の研究に取り組んでおられ、アムステルダム大学のデジタル文化遺産の教授としてヨーロッパの文化資料のデジタル化と利活用を先導しておられます。

スーザン・シュライプマン先生は、アイルランド詩の研究の傍ら、欧米のデジタル・ヒューマニティーズを牽引する活動に長らく取り組んでおられ、米国で長らく仕事をされた後、アイルランドに移られました。米国では、この分野の研究者を育成するとともに欧米で決定版とされる入門書を2度にわたって編集・刊行し、現在はアイルランドクラウドソーシング翻刻プロジェクトを率いるなど、多方面で活躍しておられます。

 ロバート・キャンベル先生のお話から、日本の古典籍デジタル化の最先端をおうかがいできることは言うまでもありませんが、

 デジタルアーカイブに関心をお持ちの方は、ユリア・ノルデグラフ先生のお話から、ヨーロピアーナの先にある姿をイメージできると思います。

 文献学のデジタル化(単なる文字起こしではなく)についてご関心をお持ちの方は、スーザン・シュライプマン先生のお話から、文献学を含む人文学の社会における位置づけを含む多くのことを学ぶことができると思います。

 特に、海外からいらっしゃるお二人の先生のお話を、日本で日本語で聞ける機会は非常に貴重です。この機会を、ぜひ、ご活用いただければと思っております。

 

デジタル校訂テクスト作成のMOOCに日本語字幕がつきました

このところ、東京大学で開講されている人文情報学に関する授業を通じてDHへの取組みを始めた大学院生を中心に、近隣の若手研究者にも加わっていただいて、「デジタル校訂テクスト作成のMOOCに日本語字幕をつける」という取組みを行っていました。

 

やや長目の前置き

 ここで一つ、お断りしておかなければならないのは、「校訂テクスト」という用語です。「校訂」という言葉には、誤ったものを訂正するというニュアンスが入ってしまいがちであり、実際の所、「正しいテクストを作るために」校訂を行っているという時代もあったようです。しかしながら、残っている様々な写本・版本・原稿は、「正しい」と言えるものが本当に存在するのか、という問題が常につきまといます。たとえば、源氏物語を書いた紫式部の直筆原稿が残っていない以上、どれが正しいかというのは推測でしかありません。でも、江戸時代に広く読まれた木版の源氏物語は、もしかしたら紫式部が書いた源氏物語からは少々離れたものかもしれませんが、しかし、一方で、江戸時代に広く読まれた(であろう)テクストであるという状況には、研究対象としても相応の意義・価値が見いだせるかもしれません。江戸時代にそれを読んだ人たちにとっては、それが源氏物語であり、それを元にして色々な思考や活動を紡いでいったのですから。

 似たようなことは、聖書でも仏典でも見いだすことはできるでしょう。そうだとすると、現在残されている写本・版本などが様々に異なりを見つけられるからといって、それらをまとめて「正しいテクスト」を見出そうとすることは、やや乱暴なことである、という風に考えることもできます。そうすると、そのようにして様々な少しずつ異なる文章を含む写本・版本群をとりまとめて一つのテクストとして提示しようという取組みを「校訂」、つまり、誤りを正す、というニュアンスを含む言葉で表現するのは、誤解を招いてしまうのではないか、という懸念が生じます。この懸念を避けるために、「学術編集版」という言葉が提唱されています。

 実際の所、紙媒体では、たとえば Nestle-Aland版ギリシャ語新訳聖書に端的に見られるように、「本文」を書いた上で、脚注に「異文」を記載するというスタイルを避けることはなかなか容易ではありません。この状況で「校訂」と言ってしまうと、「本文こそ(のみが?)正しく価値がある」という考え方を、ともすれば強化してしまいがちであるようにも思われます。しかし、デジタル媒体では、必ずしも「本文」のみを示す必要はなく、むしろ、複数の異文を含むテクスト様々なビューで表示してみる、といったことが簡便に行える可能性があり、実際に、このMOOCで紹介しているText Encoding Initiative (TEI) Guidelinesは、それを実現するための記述方法であり、欧米の文献学ではすでにそういうことが普通にできるようになっています。たとえば西洋中世写本研究のカリキュラムにも、この記述の仕方が取り入れられ、若手研究者にとっては、得手不得手はともかく、リテラシーのレベルでとりあえず学んでおく技術ということになっているようです。

 さて、少し話を戻しますと、筆者としては、基本的には「学術編集版」に賛成なのですが、しかしながら、今度は、日本語の「編集」という言葉が孕む行為としての弱い側面が、editという言葉がもつ強さを十分に反映できず、逆の意味での誤解を招かないか、という心配も一方で持っております。そのようなことから、ここでは「校訂テクスト」という、誤解を招くかもしれない言葉を、しかし、日本語の慣用としてのわかりやすさから、用いてみています。TEIをベースとした、「デジタル学術編集版」が、「校訂」という言葉の持つ危うさを実践の面からフォローしてくれるのではないか、という期待もあります。(特に、lemmaを持たないcritical apparatusという使い方がそれを示してくれていると思っています。)

 

デジタル校訂テクスト作成のためのMOOC

 前置きが長くなりましたが、そのようなことで、デジタル学術編集版(≒デジタル校訂テクスト)を作成(記述)するために、DARIAH(欧州人文学デジタル研究基盤)が昨年後半に公開したMOOCに日本語字幕をつけるという作業が、完了はしておりませんが、かなり進みましたので、お知らせする次第です。

 MOOCのサイトはこちらです。

 なお、様々に用意されている教材群や説明書きはまだ和訳されていません。が、MOOCのビデオをみていただくだけでも、TEIによるテクスト校訂の記述がどのような考え方に基づいて行われているか、というのは、テクスト校訂についてご存じの方であれば、把握していただけるのではないかと思います。私がこの仕事に取り組んでいて面白いと思うことの一つは、西洋中世のことを研究している、日本語や東洋の言語文化のことなどまるで知らない人たちが語る「デジタル校訂」についての問題意識とそれに基づく実装が、西洋中世写本のことなどまったくわからないこちらにもよくわかる、ということです。もちろん、西洋文献学の影響を受けたから、という背景もあるだろうとは思いますが、それを踏まえた上でも、やはり面白いと感じてしまうところです。MOOCのビデオの一覧はこちらで閲覧できますので、よかったらぜひ、字幕を日本語にして、お楽しみください。

 おそらく、日本語で、テクスト校訂に関するTEIガイドラインのまとまった解説はこれが初めてなのではないかと思います。その意味でも、今回の日本語字幕付きMOOCは貴重なものなのではないかと思います。(個人的には、部分的には論文で言及したりしたことはあります。あるいは、もしすでにこういうものがあるということをご存じの方がおられましたらぜひお知らせください。)

 

 それと、注意しておいていただきたいのは、ここで講義されていることが「記述方法」である、という点です。「表示」と「記述」は別なものである、という考え方が割と広く受容されているようであり、「表示」のためのソフトウェアはまた別途開発されています。有名なものに、メリーランド大学Versioning Machineがあります。が、他にも色々な表示用ソフトウェアが世界各地で開発されています。一度、TEIのガイドラインに準拠して記述しておけば、あとは様々なソフトウェアで表示したり処理したり分析したりすることができるし、さらに、いつか誰かがとても素晴らしいソフトウェアを開発してくれた時に、労せずしてそれにうまく読み込ませてさらに利活用の幅を拡げることができる(=将来に向けての前向きな投資)、ということでもあるのです。

 

日本語字幕を作成された方々

 今回の日本語字幕作成に携わった方々は、以下のとおりです。DARIAHのサイトにも掲載されていますが、頑張ってくださったみなさんに敬意を表して、字幕翻訳者一覧をこちらにも掲載させていただきます。

  • 伊集院栞 Shiori Ijuin (The University of Tokyo)
  • 幾浦裕之 Hiroyuki Ikuura (Waseda University)
  • 一色大悟 Dr. Daigo Isshiki (The University of Tokyo)
  • 小林拓実 Takumi Kobayashi (The University of Tokyo)
  • 小風尚樹 Naoki Kokaze (The University of Tokyo)
  • 李増先 Dr. Zengxian Li (Ritsumeikan University)
  • 宮崎展昌 Dr. Tensho Miyazaki (Intl. Institute for DH)
  • 永崎研宣 Dr. Kiyonori Nagasaki (Intl. Institute for DH)
  • 纓田宗紀 Soki Oda (The University of Tokyo)
  • 岡田一祐 Dr. Kazuhiro Okada (National Institute of Japanese Literature)
  • 山王綾乃 Ayano Sanno (Ochanomizu University)
  • 鈴木親彦 Chikahiko Suzuki (Center for Open Data in the Humanities)
  • 田中翔Shogo Tanaka (The University of Tokyo)
  • 王一凡 Yifan Wang (The University of Tokyo)

 

終わりに代えて

DARIAHのMOOCは、他にも様々な用意されています。自分で日本語訳して日本語でも使えるようにしたい教材を発見した人がおられましたら、先方に相談してみますのでぜひお声がけ下さい。

国内外のデジタルアーカイブの研究活用事例を知るイベント2件:

さて、またずいぶんブログの更新を怠っておりましたが、その間、色々なところで活動しておりました。特に印象に残ったのは、ヴェトナムのDHコミュニティの立ち上げのお手伝いの仕事でした。これはもう少ししたら具体的なことをアナウンスできると思います。その他、ワシントンDCで開催されたIIIFカンファレンスで発表したり、IRG国際会議で北京に行ったりしていましたが、そのご報告はまた後日ということで、今回は、表題の件です。

 

 私も研究分担者をさせていただいている科研費基盤研究(S)のプロジェクトで、フランスとドイツ/米国から、デジタル・ヒューマニティーズの著名な研究者かつ実践者をお二人お呼びして、日本でワークショップとシンポジウムを開催する運びとなりました。

 そこで、同時通訳付きのシンポジウム(+国内の最新事例のデモ19件)と、使い勝手なども含めたテキストデータベースの具体的な話をする小さなワークショップという、二つのイベントを開催することになりました。(いずれも、参加費無料ですが要参加申込みですので、上記リンク先のサイトにて、お早めにお願いいたします。

 

 海外から来て下さるお二人のお仕事については、それぞれのサイトにも書いてありますが、このお二人のプロジェクトは、ヨーロッパ全体を対象とした大型で包括的な研究向けデジタル基盤提供プロジェクトDARIAHと、専門分野に特化された精密かつ巨大なデジタルアーカイブペルセウスデジタル図書館・西洋古典フルテキストデータベース)という、対照的な、しかしそれぞれがデジタルアーカイブの研究利用という観点から世界の最先端を行っているものです。特に、ペルセウスデジタル図書館についてのご講演は、本邦初です。メールマガジン『人文情報学月報』で特集されたことがあります。ペルセウス・デジタル・ライブラリーのご紹介(1)(2)(3)このお二人にそれぞれ同時通訳付きで講演をしていただくのが、7/6のシンポジウムです。この日は、人文学のためのデジタル学術基盤を考えるという趣旨になりますので、これらに加えて、国立情報学研究所の大向先生からも、日本のデジタル学術情報基盤全般と、そこにおける人文学の位置づけについてのお話をいただきます。

 

 また、それに加えて、今回は、国内の関連する組織・プロジェクト等から19件のポスター・デモンストレーション発表をいただきます。これは、国内での人文学向けのデジタルアーカイブ研究活用の最先端の事例とその中心メンバーの方々に、参加者の皆さんと直接やりとりをしていただき、情報を得ていただくということを目指しております。近年の人文学におけるデジタルの活用に関する議論を拝見しておりますと、海外どころか、国内の事情もうまく共有されないままにあまり建設的でない議論になってしまうことも時々あるようです。今回は、そういう状況を一気に解消して、皆で地に足の着いた将来像を描いてみることができるようになることをも目指しております。デモンストレーションを提供して下さる機関については、こちらのリストをご覧下さい。ほとんどは研究活用に向けたデジタルアーカイブ、もしくはそのサービス基盤を提供しているところからの発表、ということになります。

 

 それらの機関からポスターとデモンストレーション発表を出していただき、それぞれに液晶ディスプレイを使っていただきながら40分間+αのデモンストレーション時間に説明と質疑応答をしていただくという形になる予定です。残念ながらこの19件だけでは国内の先進事例のすべてを網羅できているわけではないのですが、しかし、これだけのプロジェクトが一堂に会し、情報提供をしてくださる機会は非常に希ですので、我国の人文学におけるデジタル研究基盤、あるいは、デジタル時代の人文学の将来像にご関心をお持ちのみなさま方におかれましては、ぜひこの機会をご活用いただきたく存じております。

 

 もう一つのイベントは、前日(7/5)に開催される、上記のワークショップです。こちらは同時通訳はなく、英語での開催となりますが、ペルセウスデジタル図書館と、SAT大蔵経テキストDBという、二つのテキストデータベースを採り上げて、より具体的なテクストDBについての議論が行われる予定です。とりわけ、西洋古典のテクスト研究におけるデジタル技術活用の最新動向についてご関心がおありの方は、こちらもぜひご参加下さい。

 

 ということで、参加されるみなさまと、うまく色々な有益な情報を共有できればと思っております。そして、参加できなかった方々とも、事後に、なんらかの形で情報を共有できればと思っております。すべきことが多すぎて、みんなで大変な時期にさしかかっておりますが、なんとか乗り切っていきましょう。

 

IIIFの活用をもう少し踏み込んで:SAT2018の事例より

ここのところ、合間を見つけて、ちょこちょこと作っていたものが、ようやく日の目をみてもよさそうなところまできたのでご紹介です。再びIIIFの話です。

 

SAT大蔵経テキストデータベース2018(SAT2018) と IIIF Manifests for Buddhist Studies (IIIF-BS)をうまく組み合わせてより利便性を高めたいと思っておりまして、結果として、以下のようなものができました。たとえば、『妙法蓮華経』の例を見て頂くと、右下にダイアログが開いて、以下のように、各地から公開されている経典画像の断片が、全体のどの部分にあたるか、というのが比較的正確に表示されるようになりました。

f:id:digitalnagasaki:20180426033124p:plain

これは大正新集大藏經の行番号をIIIF-BSで各IIIFマニフェストに割り当てておいて、その行番号をみて該当する箇所に該当するIIIFマニフェストを表示しています。横方向が経典の全体で、そのうちでそれぞれのIIIFマニフェストが対応する部分に関して、バーとして表示されるようにしています。このバーをクリックすると、IIIF対応画像に関しては、上のようにMiradorに表示されます。なお、この図の縦方向は、今のところ、公開期間ごとに分けているというだけでそれ以上の意味はありませんのでご注意ください。これを年代別にできるといいなあと思っているのですが、そのためには各画像の年代を調べて書いていかないといけないので、それはちょっと骨が折れそうです。(でもいつかできるようにしたいです)

 この表は、ホイール操作でズームすることもできるので、たとえば以下のようにして拡大してみて、各資料がどこまで残っているかを詳しく比較しながら確認することもできます。

f:id:digitalnagasaki:20180426033953p:plain

 

それから、「高麗蔵」「宮内庁宋版一切經」などは、まだIIIF対応ではないので、単に新しいウインドウ/タブがポップアップするだけ、という風になっています。

お試ししてみたい方は、以下にいくつかリンクを用意しておきますので、それぞれクリックしてみて「巻タイトル」の隣にある「画像一覧」というボタンをクリックしてみて下さい。そうすると、上記のような画像一覧の表が表示されるようになっています。

 

妙法蓮華経

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T0262.html

『金光明最勝王経』

http://21dzk.l.u-tokyo.ac.jp/SAT2018/T0665.html

f:id:digitalnagasaki:20180426034706p:plain

 

今夜はもう寝なければならないので、とりいそぎ、速報ということでここまでとさせてください。