ワークショップ (デジタル/アナログ・ヒューマニティーズ)によせて:パブリックドメイン資料の活用と大学図書館連合への参画について

【イベント】デジタル・ヒューマニティーズ関連ワークショップ(東京・2/10、2/12) | カレントアウェアネス・ポータル

の告知があった。残念ながら、すでに2/10は京都で講習会の講師を頼まれていて、ほぼ時間もかぶっているので、全然参加できないという状況である。しかしながら、デジタル・ヒューマニティーズ(DH)に関わるイベントが、西洋における歴史学の文脈で日本で開催されるというのは大変にうれしくありがたいことである。2/10のテーマに掲げられている「アナログ・ヒューマニティーズ」というのは、TEIガイドラインをめぐる議論等を通じて、まさにDHの努力の半分かそれ以上が捧げられているような歴史のある重要な事柄なので、ぜひそこを踏まえた上での建設的な議論を期待したい。

 

さて、さらにうれしいのは、テーマになっている話としてEEBO-TCPECCO-TCPが採り上げられていることである。TCP (Text Creation Partnership)というのは、有料(かつかなり高額な)英語文化資料データベースであるEEBO (Early English Books Online, 1475-1700年に英国で刊行された本のオンライン版)やECCO (Eighteenth Century Collections Online)等の、テキストの部分のみを、最初はメンバー大学図書館のみで作成・公開・共有して、最終的にはパブリックドメインとして共有しようという試みである。昨今のオープンデータ・オープンサイエンスの話ともつながってきそうな話である。

http://www.textcreationpartnership.org/

すでにEEBO-TCP Phase I として25000点のテクストがパブリックドメインになっていてオックスフォード大学のテクストアーカイブ等から公開されており、まだまだこれからたくさん作成公開されるという感じである。日本でも、去年の9月まで東京女子大にいらっしゃったアンジェラ・ダヴェンポート先生が注目しておられて、ワークショップを開催したりしておられた。

 このTCPのテクスト群をターゲットとして公開されている検索システムとしては ミシガン大学の Early English Books Online のものが結構高機能な検索システムを提供したりもしていてなかなか便利そうである。他にも様々なプロジェクトがこのテクスト群をターゲットとした研究開発を行っているようであり、一昨年、シカゴでTEIカンファレンスに参加した際には色々な研究発表が行われていた。なかでも面白かったのは、OCRのプロジェクトと、TEIガイドライン(人文学資料のためのテクストXMLマークアップのためのルール)のサブセットのプロジェクトの話だった。

 OCRの方は、テキサスA&M大学の英文学のLaura Mandell先生が率いるeMOPプロジェクトで、GoogleのフリーのOCRソフトであるTesseract OCR engine に歴史的な字形を学習させるためのツールとしてFranken+というのを開発中とのことで、これは日本語でやってみるとどうなるんだろうか、とちょっと思った次第。

 後者は、このTCPテクスト群をターゲットとしたTEI Simpleという規格が立ち上げられていた点である。TEIガイドライン自体は、とにかく多様な人文学資料やその用法にすべてきちんと対応しようとするあまり、タグや属性が多すぎてちょっと扱いが難しい面があるのだが、TEI SImpleでは、それをばっさりと削ってしまった上に、さらに英文資料に特化された属性値を決めたりして、簡単に機械処理できるようにしているようなのである。上述のオックスフォードのアーカイブでもこのTEI Simpleに従ってマークアップされたTEI/XMLファイルを公開しているとのことである。(ここら辺のことは西洋史とか英国史を研究しているわけではないので必ずしも正確・適切ではないかもしれずその点ご容赦いただきたい)。

 いずれにしても、自由に使える電子テクストがどんどん出てきているようなので、色々な研究が大きく進んでいくだろう。TCPのテクスト群は基本的には英語で、日本人でもそこそこ使えるのではないかと思うので、単に検索サービスやツールを使ってみるだけでなく(もちろんそれも重要なことだが)、こういったものを活用したプロダクトに挑戦してみていただくのもよいのではないかと思う。

 

さて、副題の方に入ろう。このTCPの参加館リストをみてみると、世界中から100以上の大学図書館が参加していて、東アジアからも香港大学が参加しているが、日本の大学は0である。まあ確かに英語資料のみに注力することは難しいので、わざわざ日本の大学からお金を払ってまで参加しようというのはちょっと無理があるかもしれない。ただ、他にも、HathiTrust(参照1 2 3)やCADAL(参照1 2)など、国際的な大学図書館連合の枠組みによって資料・情報を融通していこうという流れが結構大きくなってきており、にも関わらず日本の大学図書館からはまだほとんど参加がない(HathiTrustは慶応大学が資料提供をしているが参加はまだ)ような感じであり、このままで大丈夫なのか微妙に不安である。図書館の方々(もしくは図書館の方々に触発されたり頼まれたりした一部の研究者)が話を進めてくださるのを待っているのが研究者としてはこれまでの常道だったと思うのだが、もしかしたら、そろそろ、研究者の側から、きちんと話を持ちかけたりしていく必要があるのかもしれないと思ったり、そこまでする必要はなくて図書館の方々を信じて待っていればいいのかもしれないと思ったり、今回のワークショップのお知らせを拝見して、改めて色々考えた次第である。