Europeana APIでIIIF manifestのURIを取得

 いよいよジャパンサーチのベータ版が公開され、日本でも統合検索が一層本格化しそうな流れになってきて素晴らしいことです。

 ところで、諸般の事情により、EuropeanaからIIIF manifest URIを取得する必要が生じたので、色々試してみました。一応、やりたいことはできるようになりましたが、しかし、「答え」や「やり方」をお知らせするほどきちんと理解できていないので、「どんなことを試みたか」を中心に、ちょっとご紹介して、そこから先はみなさまに取り組んでいただくという方向にしたいと思います。

 

 まず、メタデータをがばっと取りたいなら、本来は、OAI-PHMで一通り取得するのが筋のような気がします。とはいえ、58,000,000件のメタデータをダウンロードするのはちょっと大変そうですし、おそらく、こちらが必要としているデータはそのうちのごく一部のはずなので、とりあえずEuropeana Search APIの方で試してみることにしました。この種のAPIは、ローカルにダウンロードするというよりはWebサイト同士で動的にデータをやりとりすることが主目的ですので、ローカルダウンロードにはちょっと向いてない面もありますが、むしろ後々そういう使い方もしたいので、とりあえずSearch APIを試してみます。

 

 この種のものはWeb API等と呼ばれていて、コンピュータプログラムを使ってばんばん検索をかけることができるようになっています。コンピュータプログラムを使った検索では、1秒間に10回などといった途方もないアクセスを延々と続けることもできてしまうので、そういったアクセスを対象とするWeb APIは、大量アクセスに耐えられるようにサーバをかなり頑強に作っておくと同時に、あまりに目に余る大量アクセスが行われる場合には、ちょっとアクセスを遠慮していただくといった措置も必要になる場合があります。そこで、「APIキー」などと呼ばれるトークンのようなものをAPI利用者(≒プログラム作成者)に発行することでうっすらと管理することが多いようです。これが無料だったり有料だったりするわけですが、Europeanaの場合は、もちろん無料です。で、こちらから取得できるようです。

 APIキーを取得したら、いよいよ、ほしいデータをさくさく自動的に取得できるはずです。さて、IIIF Manifestの取得方法は…と思ってAPIの解説記事を見てみますが、どうもよくわかりません。ほしいのは、それを行うためのそのものずばりのやり方なのですが、そういう情報は公式ドキュメントではなかなか提供されないような感じです。そこで、とりあえずググってみるのですが、そうすると良い案配にGithubのissueが見つかりました。これによると、 q=sv_dcterms_conformsTo%3A*iiif* というクエリを投げると IIIF対応コンテンツをごそっと検索できるようなのですが、ヒット件数は 2,505,662 results となりました。フランス国立図書館のgallicaがほぼIIIF対応しているので、その数が 1,536,506件ということで圧倒的ですが、Europeana Newspapersというプロジェクト の一環で、403,549 件の新聞記事がIIIF対応で公開され、これらはOCRによるフルテキストデータもついているようで、こちらで検索もできるようです。

 さて、これでとりあえず検索のためのURLはわかりました。APIだと、以下のようになります。(以下のURLはクリックしただけでは動作しません。registrationページからAPI Keyを取得してそれを追記する必要があります)

https://www.europeana.eu/api/v2/search.json?query=sv_dcterms_conformsTo%3A%2Aiiif%2A&rows=10&wskey=ここにAPI keyを

ここからさらに、絞り込みをかけようと思ったら、たとえば以下のようにするとできるようです。(タイトルに「北斎」が含まれるもの、という絞り込みをしています)

https://www.europeana.eu/api/v2/search.json?query=sv_dcterms_conformsTo%3A%2Aiiif%2A&rows=10&qf=title%3A%2A%E5%8C%97%E6%96%8E%2A&wskey=ここに自分のAPI Key を

 

さて、このようにして、IIIF 対応しているコンテンツをAPIで検索できるようになりましたが、これだけではIIIF Manifest URIを取得するにはちょっと足りません。検索結果から、各アイテムのメタデータを取得することで入手できるようになります。

 各アイテムのメタデータの取得に際しては、各アイテムには「id」がついていますので、そのidをrecord APIに埋め込んで問い合わせを行います。たとえば、先ほどの北斎の例では、ヒットした一つ目のアイテムのid 「/9200518/ark__12148_btv1b8304309t」ですので、これを使って以下のようなURLを作成します。

https://www.europeana.eu/api/v2/record/9200518/ark__12148_btv1b8304309t.json?wskey=ここに自分のAPI Keyを

そうすると、dctermsIsReferencedBy というキーにIIIF Manifest URIが入っていることが多いようです。ただし、ここに IIIF Image APIのベースURIが入っている場合もあるので、処理に際しては注意が必要です。

 

それから、APIで取得できるのは1000件目までなのですが、gallicaがヒットしすぎて1000件を超えてしまい、gallica以外のコンテンツを探せないという事態が結構生じます。そこで、gallicaを除外する設定ができるとよいのですが、とりあえず以下のパラメータをSearch API向けのURLに追加すると除外できるようです。

&qf=-PROVIDER%3ABiblioth%C3%A8que%2Anationale%2Ade%2AFrance

 

 というわけで、あまり腕がなまってもいけないので、時々は素振りでもしておかなければと、 これをやや簡単にできるようにするためにPython3で以下のスクリプトを作成しました。

$ python3 europeana_mani_get.py 自分のAPI_Key 検索語

という風にすると、検索語.txtというファイルが生成され、dctermsIsReferencedByに入っている値(IIIF Manifest URIかIIIF Image APIのBase URI)が書き込まれるようになっています。gallicaを除外したいときは

$ python3 europeana_mani_get.py 自分のAPI_Key 検索語 exga

という風にしていただくと除外できます。

github.com

 

それから、この場合はSparql を使うとうまくいくのではないかと思って色々試してみたのですが、どうもうまくIIIF Manifest URIを取り出すことができませんでした。もしうまくいった人がおられましたらご教示いただけますと大変うれしいです。

 

この種の巨大統合検索としてはDPLAもありますので、いずれあちらもやらねばと思っておりますが、いずれにしましても、こういう感じでデータを取り出して、ジャパンサーチと良い案配につなげて便利なサービスを提供できるようになると、あるいは、そういうサービスを色んな人がちょこちょこ作れるようになるといいなあと思っております。

海外の文化資料系の開発者コミュニティと技術トレンド

 以前からあちこちで言及してきているのですが、海外先進国の大手文化機関では、システムを自前で導入するためにエンジニアを雇っています。1人ではなく数人~数十人雇ってチームを組んでいるところもあるようです。雇用のための費用は、組織として支出しているところもあるようですが、アンドリュー・メロン財団をはじめとする各種外部研究助成金で雇用することも多いようです。そうすると、助成金が切れたら、それで雇われていたエンジニアの人達はどうなってしまうのか・・・と言えば、どうも、外から見ている限りでは、新たに助成金をとった他の機関に転職したり、そもそも文化機関系ではないところに転職したりしているような感じです。そのようにして仕事を続けていく中で、ではその仕事は雇用している各文化機関からのみ評価されているのかと言えば、それだけではなく、世界各地で大中小様々な会合が催されているようです。これらの会合を通じて情報交換や仕事の相互評価といったことが行われ、さらに、こういった仕事をしている人達にとってよりよい成果をあげていくためにはどのように仕事をしていくべきなのか、といったことも検討されているようです。

 この種のコミュニティの動向で面白いと思ったのは、このブログでもよくご紹介しているIIIFを通じた動きです。日本で文化資料データベースの仕様を決める時は、発注担当者が色々勉強したりIT企業の担当者から話を聞いたりしながら、よさそうなものを選んでそれにあわせた仕様書を作成する、という感じになるところが多いと思います。一方、IIIFに関しては、一部のメジャーな文化機関に属するエンジニアの人達が、自分達で規格を作ろう、と決めて、自分達で研究助成金を取ってそれを活動資金としつつ規格の仕様を定め、できあがった仕様を自分の所属する機関に採用させた、という流れになっているようです。このような流れは以前からうっすらとありましたが、IIIFについてはそれがかなり強く表れたような感じがあります。また、今後、エンジニア同士の横のつながりがますます強化されていく中で、こういったコミュニティにおける議論はさらに重要になっていくのではないかと想定されます。

 そのような会合の多くは、デジタル図書館連合がWebサイトにて情報集約しています。

www.diglib.org

 

中でも特に大きめの規模のものについては、(個人的には参加したことがないものもありますが、その場合はプログラムや登壇者から見て判断しています)、以下のようなものがあるようです。

(ほぼ)毎年開催:

pro.dp.la

code4lib.org

members.tei-c.org

iiif.io

www.euromed2018.eu

 

隔年・数年に一度開催:

pro.europeana.eu

 

他にも大きめのものがあるかもしれませんが、海外先進国で進められている文化資料デジタル化の雰囲気を味わったり、今まさに議論されていることを把握したかったりした場合は、こういう会合に顔を出してみるとよいのではないかと思います。

 また、日本でも、文化資料関連のデジタルアーカイブ方面の活動が、こういった流れにうまく対応できるようになると、投資がより効率的になって良いのではないかと思っております。その意味では、企業の若手のエンジニアやこの種の開発に興味がある研究者の方々にご参加いただけるような形になるととても良いと思いますので、周囲にそういう若手をかかえておられるシニアの皆様は、ぜひ彼らをご支援していただけますと幸いです。

IIIF画像をまとめてダウンロードする簡単な方法

ちょっと熱を出して寝込んでおりまして、朦朧としていたところ、以下のようなお知らせをみてふと気になりました。

Flickrを利用した画像公開終了のお知らせ

こちらの中で、

なお、JPEG画像をご入り用の方は、Flickrサイトより、早めにダウンロードして頂ければ幸いです。

 という注記があって、確かに、東大サイトにまとめられた後に東大からJPEG画像一括ダウンロードをされると東大サイトの負荷が大きくなって大変だなあと思ったのですが、もしかしたら、IIIF対応の画像を一括ダウンロードするのがとても簡単にできるということがあまり知られていないということもあるのかもしれないと思って、朦朧としながら、ググって関数を調べながら簡単なものを作ってみました。

https://github.com/knagasaki/IIIF_DL/blob/master/iiifdl.py

まずは、Python3環境が必要なのですが、その上で、このスクリプトダウンロードして、入手したいIIIF対応画像のManifest URIを用意してから、Python3環境があるところで以下のようにすればよいのですが、

$ python3 iiifdl.py '入手したいIIIF対応画像のManifest URI'

たとえば、

$ python3 iiifdl.py 'https://rmda.kulib.kyoto-u.ac.jp/iiif/metadata_manifest/RB00013049/manifest.json'

というコマンドを打つと、sequencesの順番に番号をつけて画像を一通りダウンロードしてくれるはずです。ちなみに、プログラムがやっていることは、IIIF Manifestのルールに従って画像のURLを抽出して数を数えて(数を数えるのはファイル名を固定長にするため)、あとはそれに固定長の連番を振りつつダウンロードしていく、というだけのことで、プログラムとしてはとても単純なものですので、これをみたどなたかが、きっと、自分ならもっとこうできる!とか、すでにこういうものを作っている!というものを提示してくださることを期待しております。

 それから、Python3環境なんて全然簡単じゃない!と思われる向きもおられるかと思いますが、このブログを読んでおられる方々は、そろそろ、これを気に少し手を出してみてもらえますと、結構世界が広がって面白いこともでてくるかもしれませんので、前向きにご検討いただけますと幸いです。

 そういえば、どこかでこういうツールを作って公開した人が以前にいらっしゃったような気がするのですが、試用してみないうちにそのツールのURLがどこにいったかわからなくなってしまったので、もしご存じの方がおられましたらSNS等でお知らせいただけますとありがたいです。

IIIF対応資料は国内だとどこにあるのか?

 色んなところで少しずつお話をさせていただく機会がありますので、そのたびにIIIFが日本でも徐々に広まりつつあるという話をしております。そうしておりましたら、本日「どこでそういう情報を得られるのか」という質問をいただきましたので、今、一番使いやすいサイトとして以下のものをご紹介しておきます。

 

iiif2.dl.itc.u-tokyo.ac.jp

 

こちらは、東京大学の情報基盤センターの中村覚さんが作っておられるもので、国内各地のIIIF対応資料を検索できる上に色々なIIIF対応ビューワで表示することまでできます。ということは、IIIF Curation viewerで切り出し画像一覧を作成したり、Universal Viewerで画像をダウンロードしたり、といったことが、本家サイトではできなかったりやりにくかったりしたとしても、このサイト上であれば簡単にできます。今のところ国内コンテンツ限定ですが、横断検索もできますのでなかなか便利です。さらに、たとえば以下のようにURLに検索語を指定することで検索結果を共有することもできます。

http://iiif2.dl.itc.u-tokyo.ac.jp/s/iiif/search?q=百鬼夜行

ぜひお試しください。

人文系(の一部)は外部研究資金なしでどうやってきたのか?(下書き)

 母校で先生をやっている後輩氏が、かつて人文系の教員は外部研究資金を取らなくても研究できていたしその行為自体を否定的に見ていた人もいたという話をツィートしていた。確かに、母校の出身研究科(哲学・思想)が特に研究資金獲得から縁遠いところだったこともあり、そういえばそういう感じだったということを思い出した。が、同時に、それが当時なぜ可能だったのかということを、主に学生・院生時代に個人的に見聞きしてきたことを中心に、少し想像してみたいと思う。

 

 かつて、学術出版社がまだ割と元気だった頃は、出版社の編集者が学術書だけでなく学術的なことを書いた啓蒙書の企画を持ってきたり、教科書の企画を持ってきたりして、人文系の研究者はいわれるがままに原稿を書いて渡せば、あとは出版社が勝手に組版してくれて、あとは校正に少しお付き合いすれば、いつの間にか書店に並ぶようになって国立国会図書館にも納本されて、販促も出版社が一生懸命やってくれるからこちらは場合によっては少しお付き合いするくらいのことでいいし、教科書だったら学生に買ってもらうことで出版社の方々の食い扶持もなんとかなっていた(のではないかと思う)。若い頃、時々出版社の編集者(の方々)と先生(方)の集まりに行って晩ご飯までお付き合いすると、これからの社会はどうあるべきかという話から自分の研究分野がそこにどういう形で貢献していくべきか、そのためにどういう本を企画するか、というような話とともに、誰がどんなお酒が好きだとか、かつて一緒に飲んだときの失敗談など、そういう楽しい(?)議論の場が持続的に形成されてきたことをうかがわせてくれたのであった。(そういうのは今でもあるかもしれないが)

 教科書出版については、学生からお金をとるのか!と思う向きもあると思うが、たとえば200ページくらいの本が2000円くらいで手に入るなら、コピー代とたいして変わらないので、きちんと製本されていて長持ちする上にプロの編集者が校正にお付き合いしてくれたものであれば、ばらばらのコピーをその都度配布されてコピー代を徴収されるよりも良い点が色々あったのではないかと思う。個人的には、本を所有するのが好きで、教科書に限らず副読本的なものも含めて色々な本をアルバイトしながら買っていた。懐具合が厳しくて購入が困難な場合も、図書館が購入してくれて使わせてくれる場合もあったようだった。

 

 一般に売れる本でなくても、研究者や大学図書館が買ってくれることを目当てに出版を行う場合もあったようだ。現在でも、貴重資料の影印版が高値で刊行されることがあるが、かつてはもう少し安価だったような気がする(あくまでも個人的な印象)。この種のものだと、著者による買い取りや出版助成金等をとって刊行することもあったようで、外部研究資金獲得のような話が割と昔からあった部分かもしれない。

 一方、研究に関連する資料が必要な場合は、とりあえず図書館に行ってみると、使い方の習熟がちょっと面倒だったものの、検索すればその存在と配架場所がわかるので、そこに行って閲覧したり、借りられるものなら借りてみたりしていた。特に重要なものや好きなものは書店に行って購入した。必要なのに購入ができず、自分の大学の図書館にもなかった場合には、ごく稀に市立図書館が所蔵していることがあって、借りに行くことがあった。それでも入手できない場合は、図書館間相互貸借や複写依頼の制度を利用して資料を閲覧していた。私の学生時代にもできていたのかどうかはわからないが、現在は海外の図書館からも取り寄せることができるのだそうだ。

(追記:本件については以下のツィートをいただいた。つまり、海外に関してもサービス提供は行われていたそうだ。

 なお、海外の図書館では1995年からIFLAバウチャーなるものを通じて費用を相互負担しているらしく、日本でもこれを使うことがあるようだ。)

 

院生時代も、ごく稀に、時間と旅費の工面がつくときは、国内の図書館やその他の機関であれば自腹で旅費を出して資料を見に(コピーしに)行くこともあった。

 

 他にも色々な経験やエピソードはあるが、とりあえずこういったことの背景にどういうお金が動いていて、それが現在どうなって、今後どうなっていくかということについて少し考えてみたい。(こういうことはもっときちんと分析している人が出版学とか図書館学・図書館情報学の方におられると思うので、これは素人の感想ということでご容赦いただきたく、参照すべき論文等があったらご教示いただけると幸いである)。

 

 まず、出版社が色々やってくれていた部分。これは、現在で言うところのアウトリーチやラーニングシステムでの教材作成、成果の刊行、研究用データの作成公開などにあたるだろうか。まだ他にもあるかもしれないが、そういった活動に関して、出版社は、ごくコアな部分を除いては、全国の大学図書館や各種図書館、本を読みたがる読者、教科書として利用する学生などから数千円ずつを集めて、それを活動資金としてほぼ自律的に活動してきてくれたようなのである。企業としての活動を支えるための、事務的な作業をする人の人件費や事務所の賃料から印刷して書店の店頭に並び、国立国会図書館に納本されるところまで、今で言うところのクラウドファンディングみたいなものだろうか。そこでは総体として少なくないお金が動いており、しかしそこに人文系研究者の多く(ほとんど?)は直接関与せずに、ただ原稿(や企画も?)を出していただけで済んでいたのではないかという風に想像される。

 ちなみに、大学図書館コンソーシアム連合JUSTICEの調査によれば、ここに回っていた費用のかなりの部分を占めていたと思われる大学図書館の図書購入費は、350-380億円程度で推移していたようだ。医学系図書がかなり高額だったりするので人文系を扱う学術出版社にここからどれくらい回っていたのかはわからないが、人文系の専門的知識を持った編集者の雇用にもそれなりに費やされていたのではないかと思う。(余談ながら、これが2016年には169億円になっており、180-200億円ほど減ってしまっているので、この間に相当の雇用が失われてきているのだろう。90年代後半には0円だった電子ジャーナルが300億円に増えているが、この多くは海外の電子ジャーナル会社に流れているのだろうと思うと、日本の文化研究の足腰が弱まっていく様がここにも垣間見えるようである。)

 

 次に、図書館が色々やってくれていた部分。まず、すでに上で金額を挙げたところだが、出版社の活動に資金を提供してくれていた。上記の「図書購入費」350-380億円の多くは出版社に行く費用であり、それは出版流通全体を支えると同時に、「原稿を受け取ってあとはなんとかしてくれるお仕事」という人文系研究者の活動を支える資金にもなっていたのではないだろうか。(現在、同じような構図は世界中の大学から購読費用を徴収して学会活動にそのお金を回してくれる電子ジャーナル会社でも行われているように思える)。また、入手した資料を湿度・温度が安定した状態で保管しつつ、いつでも必要な場所から取り出せるようにしておくことも、何もない状態から実現しようと思ったらかなりの手間と費用が必要になる事柄である。特に、「必ず使うわけではないけどいつか使うかもしれない」いわゆる積ん読本が、研究を深めるためには非常に重要なのだが、これを10万冊、100万冊、ということになると、建物や設備を用意して維持するだけでも相当な費用がかかるだろう。本棚も机・椅子も、安全に使えてある程度長持ちするものを購入しようとすると決して安いものではない。そしてそこには人件費も相当にかかっている。また、資料を探しやすくするために、コンピュータで検索できるようにするなら、それをデータ入力するにも人件費がかかり、データを維持し、少なくとも開館時間に利用できるようにするためのコンピュータシステムの運用にも少なからぬ費用がかかる。そういうことをやってもらうのに、たとえば30人必要だとしたら、それだけで1-2億円くらいは毎年かかるだろう。建物もいずれは増築したり建て替えたりしなければならないとしたら、その費用も勘案する必要があるだろう。一方、貴重な資料であれば、鍵付の部屋に保管して、利用希望者が来たら取り出して閲覧させるための対応者が必要になる。ここでも、鍵付の部屋の維持、閲覧室の確保に加えて、これに対応するための人件費がかかることになる。こういったことについてとても言い尽くすことができないくらい色々な要素があるが、とりあえずここまでとして次に行ってみよう。

 図書館の相互貸借サービス。これは全体のコストが見えにくいものだが、何もない状態からこのサービスを構築することを考えてみよう。まず、自分の図書館には当該資料が存在しないことを確認できる仕組みが必要である。常に増え続ける資料について動的に対応できる仕組みを運用するには、それなりの人件費とシステム維持費用がかかるだろう。有料・無料の図書館向け検索システムパッケージがあるのでそれを購入するか自力で導入するといういことになるだろうか。そして、どこに依頼すればいいかを確認するためには、各図書館の蔵書の情報が簡単に探せるようになっていなければならない。これには、各図書館の蔵書情報を集約して検索できるシステムがなければとても大変なことになってしまう。国立情報学研究所ではそれを実現するための共同書誌データ構築検索システムを運用しているそうであり、そこにもやはり、それなりの人件費やシステム維持費用がかかっていることだろう。つまり、各図書館において専門知識を持った図書館司書の一部の時間にかかる分の人件費と、国立情報学研究所に回っているいくらかの(もしかしたらそれなりの)費用とが、このインフラを支えるために費やされているということになる。

 

 図書館に関して、人文系研究者としては、「それは大学の教育研究全般にとって必要だから導入されているのであり自分たちのためだけではない」という風に考えてしまいたくなる。実際、これまでのところはそういう面が大いにあり、人文系研究者としては全体のためのシステムのごく一部を利用するだけでよかった。しかし、少し角度を変えてみると、多くの人文系研究者がそのようなサービスを少しずつ活用しているのであれば、いわば、大がかりな資金が皆に少しずつ還元されているとみることもできるだろう。もしかしたら、一部の人文系研究者は、そういった大がかりな仕組みの構築に貢献してきたのかもしれない。たとえば国文学研究資料館の古典籍のデータベースなどは、そのようなものの一つと位置づけることができるのかもしれない。

 

 具体的な金額がどうかということはともかく、こういう感じで、出版社の方々の才覚と、図書館のインフラに支えられて人文系の研究者の研究環境が提供されてきたために、たとえば実験室や実験器具から自分で資金をとってこなければならなかったり、大がかりなコンピュータ環境を用意しなければ大規模計算ができなくて仕事がうまく進まないような研究者に比べると、恵まれた環境で研究ができてきたと言えるのかもしれない。

 

 このように考えてくると、やはり出版社がこれまで果たしてきてくださった機能を半ば失いつつあるようであることは、その部分に人文系研究者が自ら対応しなければならないということになるのかもしれず、費用がかかる部分については、何らかの方法で外部研究資金を獲得しなければならないということになるのかもしれない。そして、最近危惧しているのは、たとえば先日、母校である筑波大学図書館が資金不足でクラウドファンディングしていたように、図書館のサポート機能が弱まっていくのではないかという点である。まだ貴重資料はきちんと保管していて求めに応じて見せていただける(と信じている)し、既存の図書雑誌はそんなにご無体な形で廃棄されることはない(と信じている)し、図書検索システムはとてもよい感じで運用されている。しかし、一部の強力な大学を除いて「紙の図書はもういらないのでは」という話にいずれならないのかということは、近年の様々な性急な動きのなかでは少しだけ懸念される事項である。もしそのシステムを徐々に失うことになったとしたら、人文系研究はどのようにして展開し得るのか、ということもいつか考えなければならないのかもしれないと思うことも最近は時々ある。

 個人的には、むしろ逆に、大学図書館にはより強くなってもらって、特にデジタル対応を進めることで人文系インフラを強化していく方向に行ってもらいたいと思っているが、足下がどのように支えられてきたのかということも意識していかねばと思っているところである。

 というようなことをこちらのシンポジウムのディスカッションを聞きながら考えていたのでした。

 

 それから、自腹を切って研究に必要な資料を買う、というケースはもちろんあって、それはおそらく今でも人文系研究者の場合結構多いのではないかと思うのだが、研究対象への愛が高じて研究をしている人が結構いて、どんどん本を買ってしまったり、高価な資料にお金を注ぎ込んだりしたというケースをよく耳にする。ただ、その原資がどこから来ているかというのは色々で、とにかく給料しか収入がないのにそれをつぎ込んだり、書いた本があたったから印税収入でどんどん買ったり書庫も作ったり、元々家が資産家だったり親の代から研究者で家に資料がかなり蓄積されていたり、あるいは実家に国宝重文級の資料が色々あったり、多種多様なパターンがあったが、そのようにして、個人でなんとかしてしまっていた方々もおられたようだった。とはいえ、そのことは、個人で入手可能な資料を使って実施できる研究であることも意味しており、人文学全体としてみた場合、それほど多くの割合ではないかもしれない。

 ちなみに、私個人としては、学生・院生時代は頑張ってバイトして学術書やら啓蒙書などを色々買ったりして、個人のお金もそれなりにつぎ込んでいるが、お金を出しても買えない資料も多いのでインフラ的なもののお世話になることが多かったしこれからも多いだろうと思われる。

 

 もう一つ追記しておくと、調査や学会発表のための「旅費」は曲者だ。これは外部資金に依存しないなら、院生時代の先生方は何もせずとも配分される校費のようなものが数十万円はあったようだったが、院生の自分には自腹しかなかった。しかし、哲学・思想という一見すると移動から縁の遠そうな研究科であったこともあり、海外に行くことがなかったこともあり、院生時代は旅費で苦労したことは特になかった。夜行バスを使うことも結構あったが、長距離ドライブが好きで、一般道で京都大学広島大学に行って発表したことも何度かあった。一般道だとガソリン代と体力さえあえればなんとかなる上に途中で誰かを拾っていって安くあげることもできたので、まあなんとかぼちぼちやっていた。自動車を持っていたのか、と都会で学生生活をした人だと驚くかもしれないが、筑波大学のサークル等には先輩から数万円で自動車(決してきれいなものではない)を譲り受ける習慣というか儀式のようなものがあり、名義変更も車検も自分でやっていた。ちょうど、ユーザ車検が始まる前後だったが、開始前も自分でやっていた。当時は業者以外で自分で車検をする人が少なかったこともあり、色々予習してから陸運局に行ってあれこれ聞きながらやってなんとかなっていた。もちろん、自賠責と重量税は安くならないので、それはなんとかバイト代でまかなったが。要は、都会のちゃんとした収入がある人達が乗っているようなピカピカできれいなアクセサリーのような乗り物とは一線を画す何かだったのだ。

 話を戻すと、人文系でも、当時から海外フィールド調査や海外発表が必須の分野も少なくなく、そういう分野の人達は旅費が自腹だと到底対応できなくなるので、外部研究資金獲得に熱心で上手な人が多かったように思う。大学院を中途退学して、東京外国語大学のアジア・アフリカ言語文化研究所というところにCOE研究員として赴任したときに初めてそういう世界に入り込んで、やや内側から見ることになった。当時あの研究所は(調べればすぐにわかるが)巨大な助成金を獲得して旅費を工面しており、同じ人文系でもこんな世界もあるのかとびっくりしたのであった。自分の分野も海外で幅広く展開しており、大学院時代は結局あまり触れることがなかったのだが、この頃から海外の研究者とも交流を持つようになり、旅費確保のための外部研究資金獲得ということも半ば習慣のように身についた。しばらくして母校の先生達が代替わりで国際派の先生方になり、院生向けの海外渡航助成金がいつの間にか充実するようになり、母校の出身分野も全体的に国際的な感じになって外部研究資金獲得も特に目立つようなことではなくなったようだった。

IIIFを外注で導入したい場合には

 デジタルアーカイブを効果的に利用できるようにするためにIIIFの導入を検討しているが、内製は難しい、という機関・組織は日本には少なくないだろう。そこでまず確認してみていただきたいのは、連携可能な関連機関でIIIFにすでに対応していないか、ということである。親組織を同じくする別の組織がIIIF対応のデジタルアーカイブをすでに公開していて、コンテンツを増やしたいと思っていることもあるかもしれない。あるいは、IIIF対応のデジタルアーカイブを公開しようとしていて、関連組織のコンテンツもあれば一緒に公開してしまいたいと思っているかもしれない。構築・公開にかかるコストを節約できれば、その分、コンテンツの充実化にコストをかけることができるかもしれないし、喫緊の全く別の課題に費用をまわせるかもしれない。デジタルアーカイブの現場での様々なトレードオフをなるべくうまく乗り切っていくことは、デジタルアーカイブ社会の実現を考慮した場合にも重要な課題だろう。

 

 さて、色々な事情を考慮した結果、やはり単独で企業に発注する以外に方法がないことがわかった場合、仕様書を作成して発注するということになるだろう。これが入札になる場合、入札参加資格の格付けについても配慮しなければならず、対応可能な企業の存在を確認しておく必要があるだろう。そこで、IIIF対応可能な企業についての情報共有ができると望ましい。以前にも一度、こちらで情報共有したことがあるが、先日北海道大学図書館でIIIFに関する講演をした際に情報をアップデートしたので、筆者が現在把握している情報ということで、以下にリストアップしておきたい。

国内IT企業によるIIIFソリューションの活用

  (現在、永崎が把握している範囲で)

ヴァティカン図書館/近畿大学

国文学研究資料館東日本大震災アーカイブFukushima/国立歴史民俗博物館岡山県立記録資料館

慶應大学メディアセンター/京大附属図書館

  • ㈱ メノックス⇒オープンストリーム

島根大学附属図書館

  • ENUTechnologies

東京都中野区立図書館、練馬区立稲荷山図書館

  • ヴィアックス

九州大学附属図書館

その他、対応可能とうかがっている国内IT企業

  • イパレット(堀内カラー)、TRC-ADEAC、メタ・インフォ

 

他にもご存じの企業/ソリューションがあれば、ぜひ情報をお寄せいただきたい。

「TEIで青空文庫」勉強会を開催します

 人文学のためのテクスト構造化のガイドラインを策定すべく1987年、ニューヨークにて始まったTEI (Text Encoding Initiative)の取り組みは、2016年の東アジア/日本語分科会の設立、2018年、30年の歴史の中で初の欧米外での年次大会開催に至り、欧米の外への対応をより本格化しつつあります。東アジア/日本語分科会では、ガイドラインを日本語で便利に使えるようにするための取り組みを続けてきておりますが、それまでの取り組みが一つの区切りを迎えました。そこで、次の取り組みとして「TEIで青空文庫」勉強会を開催いたします。

 青空文庫について多くの説明は必要ないでしょう。研究者の中でもこれを利用する人は多いようであり(しかしあまり公言されないようでもありますが)、その活用可能性の高さは圧倒的です。また、一方で、お試しで色々なことを試すこともできます。そこで、青空文庫にTEIを適用してみることで色々なことをできるようにしてみよう、さらに、そこでTEIを適用できるようにしたものを共有して、みんなで色々できるようになりましょう、ということで、みんなで青空文庫にTEIを適用してみる勉強会を開催することにしました。

 

第一回は以下のように開催される予定です。(詳細はこちら

2019年1月21日月曜日 18:00〜20:00
人文情報学研究所8F(人数次第では変更になる場合があります)

なお、会場の広さの関係で、参加申し込みをしていただいております。

参加申し込みフォーム

 

 TEIって何?という人は、私の書きかけの原稿や、過去に書いたブログ記事などをご覧ください。TEIは、簡単に使えるものから非常に専門的なものまで、様々なテクストを人文学のために構造的に扱えるようにするためのガイドラインを提供しています。実は、ずいぶん前に、青空文庫の『走れメロス』をTEIに準拠してマークアップしてみたことがあります。その時の記事をご覧いただけば概要はおわかりいただけるかと思いますが(しかもマークアップされたテクストもダウンロードできますが)、TEIの適用の仕方は他にも色々あります。そこで、これも含めていろんなことをみんなで試してみよう、というのがこの勉強会の趣旨です。

 基本的に、TEIは知らないけどXMLJSONなどのデータをプログラミング言語で多少は扱える人か、TEIを知っている人、を参加者として想定しておりますが、ご興味がおありの方はぜひご参加ください。Zoomでの遠隔参加も歓迎です