IIIF画像をまとめてダウンロードする簡単な方法

ちょっと熱を出して寝込んでおりまして、朦朧としていたところ、以下のようなお知らせをみてふと気になりました。

Flickrを利用した画像公開終了のお知らせ

こちらの中で、

なお、JPEG画像をご入り用の方は、Flickrサイトより、早めにダウンロードして頂ければ幸いです。

 という注記があって、確かに、東大サイトにまとめられた後に東大からJPEG画像一括ダウンロードをされると東大サイトの負荷が大きくなって大変だなあと思ったのですが、もしかしたら、IIIF対応の画像を一括ダウンロードするのがとても簡単にできるということがあまり知られていないということもあるのかもしれないと思って、朦朧としながら、ググって関数を調べながら簡単なものを作ってみました。

https://github.com/knagasaki/IIIF_DL/blob/master/iiifdl.py

まずは、Python3環境が必要なのですが、その上で、このスクリプトダウンロードして、入手したいIIIF対応画像のManifest URIを用意してから、Python3環境があるところで以下のようにすればよいのですが、

$ python3 iiifdl.py '入手したいIIIF対応画像のManifest URI'

たとえば、

$ python3 iiifdl.py 'https://rmda.kulib.kyoto-u.ac.jp/iiif/metadata_manifest/RB00013049/manifest.json'

というコマンドを打つと、sequencesの順番に番号をつけて画像を一通りダウンロードしてくれるはずです。ちなみに、プログラムがやっていることは、IIIF Manifestのルールに従って画像のURLを抽出して数を数えて(数を数えるのはファイル名を固定長にするため)、あとはそれに固定長の連番を振りつつダウンロードしていく、というだけのことで、プログラムとしてはとても単純なものですので、これをみたどなたかが、きっと、自分ならもっとこうできる!とか、すでにこういうものを作っている!というものを提示してくださることを期待しております。

 それから、Python3環境なんて全然簡単じゃない!と思われる向きもおられるかと思いますが、このブログを読んでおられる方々は、そろそろ、これを気に少し手を出してみてもらえますと、結構世界が広がって面白いこともでてくるかもしれませんので、前向きにご検討いただけますと幸いです。

 そういえば、どこかでこういうツールを作って公開した人が以前にいらっしゃったような気がするのですが、試用してみないうちにそのツールのURLがどこにいったかわからなくなってしまったので、もしご存じの方がおられましたらSNS等でお知らせいただけますとありがたいです。

IIIF対応資料は国内だとどこにあるのか?

 色んなところで少しずつお話をさせていただく機会がありますので、そのたびにIIIFが日本でも徐々に広まりつつあるという話をしております。そうしておりましたら、本日「どこでそういう情報を得られるのか」という質問をいただきましたので、今、一番使いやすいサイトとして以下のものをご紹介しておきます。

 

iiif2.dl.itc.u-tokyo.ac.jp

 

こちらは、東京大学の情報基盤センターの中村覚さんが作っておられるもので、国内各地のIIIF対応資料を検索できる上に色々なIIIF対応ビューワで表示することまでできます。ということは、IIIF Curation viewerで切り出し画像一覧を作成したり、Universal Viewerで画像をダウンロードしたり、といったことが、本家サイトではできなかったりやりにくかったりしたとしても、このサイト上であれば簡単にできます。今のところ国内コンテンツ限定ですが、横断検索もできますのでなかなか便利です。さらに、たとえば以下のようにURLに検索語を指定することで検索結果を共有することもできます。

http://iiif2.dl.itc.u-tokyo.ac.jp/s/iiif/search?q=百鬼夜行

ぜひお試しください。

人文系(の一部)は外部研究資金なしでどうやってきたのか?(下書き)

 母校で先生をやっている後輩氏が、かつて人文系の教員は外部研究資金を取らなくても研究できていたしその行為自体を否定的に見ていた人もいたという話をツィートしていた。確かに、母校の出身研究科(哲学・思想)が特に研究資金獲得から縁遠いところだったこともあり、そういえばそういう感じだったということを思い出した。が、同時に、それが当時なぜ可能だったのかということを、主に学生・院生時代に個人的に見聞きしてきたことを中心に、少し想像してみたいと思う。

 

 かつて、学術出版社がまだ割と元気だった頃は、出版社の編集者が学術書だけでなく学術的なことを書いた啓蒙書の企画を持ってきたり、教科書の企画を持ってきたりして、人文系の研究者はいわれるがままに原稿を書いて渡せば、あとは出版社が勝手に組版してくれて、あとは校正に少しお付き合いすれば、いつの間にか書店に並ぶようになって国立国会図書館にも納本されて、販促も出版社が一生懸命やってくれるからこちらは場合によっては少しお付き合いするくらいのことでいいし、教科書だったら学生に買ってもらうことで出版社の方々の食い扶持もなんとかなっていた(のではないかと思う)。若い頃、時々出版社の編集者(の方々)と先生(方)の集まりに行って晩ご飯までお付き合いすると、これからの社会はどうあるべきかという話から自分の研究分野がそこにどういう形で貢献していくべきか、そのためにどういう本を企画するか、というような話とともに、誰がどんなお酒が好きだとか、かつて一緒に飲んだときの失敗談など、そういう楽しい(?)議論の場が持続的に形成されてきたことをうかがわせてくれたのであった。(そういうのは今でもあるかもしれないが)

 教科書出版については、学生からお金をとるのか!と思う向きもあると思うが、たとえば200ページくらいの本が2000円くらいで手に入るなら、コピー代とたいして変わらないので、きちんと製本されていて長持ちする上にプロの編集者が校正にお付き合いしてくれたものであれば、ばらばらのコピーをその都度配布されてコピー代を徴収されるよりも良い点が色々あったのではないかと思う。個人的には、本を所有するのが好きで、教科書に限らず副読本的なものも含めて色々な本をアルバイトしながら買っていた。懐具合が厳しくて購入が困難な場合も、図書館が購入してくれて使わせてくれる場合もあったようだった。

 

 一般に売れる本でなくても、研究者や大学図書館が買ってくれることを目当てに出版を行う場合もあったようだ。現在でも、貴重資料の影印版が高値で刊行されることがあるが、かつてはもう少し安価だったような気がする(あくまでも個人的な印象)。この種のものだと、著者による買い取りや出版助成金等をとって刊行することもあったようで、外部研究資金獲得のような話が割と昔からあった部分かもしれない。

 一方、研究に関連する資料が必要な場合は、とりあえず図書館に行ってみると、使い方の習熟がちょっと面倒だったものの、検索すればその存在と配架場所がわかるので、そこに行って閲覧したり、借りられるものなら借りてみたりしていた。特に重要なものや好きなものは書店に行って購入した。必要なのに購入ができず、自分の大学の図書館にもなかった場合には、ごく稀に市立図書館が所蔵していることがあって、借りに行くことがあった。それでも入手できない場合は、図書館間相互貸借や複写依頼の制度を利用して資料を閲覧していた。私の学生時代にもできていたのかどうかはわからないが、現在は海外の図書館からも取り寄せることができるのだそうだ。

(追記:本件については以下のツィートをいただいた。つまり、海外に関してもサービス提供は行われていたそうだ。

 なお、海外の図書館では1995年からIFLAバウチャーなるものを通じて費用を相互負担しているらしく、日本でもこれを使うことがあるようだ。)

 

院生時代も、ごく稀に、時間と旅費の工面がつくときは、国内の図書館やその他の機関であれば自腹で旅費を出して資料を見に(コピーしに)行くこともあった。

 

 他にも色々な経験やエピソードはあるが、とりあえずこういったことの背景にどういうお金が動いていて、それが現在どうなって、今後どうなっていくかということについて少し考えてみたい。(こういうことはもっときちんと分析している人が出版学とか図書館学・図書館情報学の方におられると思うので、これは素人の感想ということでご容赦いただきたく、参照すべき論文等があったらご教示いただけると幸いである)。

 

 まず、出版社が色々やってくれていた部分。これは、現在で言うところのアウトリーチやラーニングシステムでの教材作成、成果の刊行、研究用データの作成公開などにあたるだろうか。まだ他にもあるかもしれないが、そういった活動に関して、出版社は、ごくコアな部分を除いては、全国の大学図書館や各種図書館、本を読みたがる読者、教科書として利用する学生などから数千円ずつを集めて、それを活動資金としてほぼ自律的に活動してきてくれたようなのである。企業としての活動を支えるための、事務的な作業をする人の人件費や事務所の賃料から印刷して書店の店頭に並び、国立国会図書館に納本されるところまで、今で言うところのクラウドファンディングみたいなものだろうか。そこでは総体として少なくないお金が動いており、しかしそこに人文系研究者の多く(ほとんど?)は直接関与せずに、ただ原稿(や企画も?)を出していただけで済んでいたのではないかという風に想像される。

 ちなみに、大学図書館コンソーシアム連合JUSTICEの調査によれば、ここに回っていた費用のかなりの部分を占めていたと思われる大学図書館の図書購入費は、350-380億円程度で推移していたようだ。医学系図書がかなり高額だったりするので人文系を扱う学術出版社にここからどれくらい回っていたのかはわからないが、人文系の専門的知識を持った編集者の雇用にもそれなりに費やされていたのではないかと思う。(余談ながら、これが2016年には169億円になっており、180-200億円ほど減ってしまっているので、この間に相当の雇用が失われてきているのだろう。90年代後半には0円だった電子ジャーナルが300億円に増えているが、この多くは海外の電子ジャーナル会社に流れているのだろうと思うと、日本の文化研究の足腰が弱まっていく様がここにも垣間見えるようである。)

 

 次に、図書館が色々やってくれていた部分。まず、すでに上で金額を挙げたところだが、出版社の活動に資金を提供してくれていた。上記の「図書購入費」350-380億円の多くは出版社に行く費用であり、それは出版流通全体を支えると同時に、「原稿を受け取ってあとはなんとかしてくれるお仕事」という人文系研究者の活動を支える資金にもなっていたのではないだろうか。(現在、同じような構図は世界中の大学から購読費用を徴収して学会活動にそのお金を回してくれる電子ジャーナル会社でも行われているように思える)。また、入手した資料を湿度・温度が安定した状態で保管しつつ、いつでも必要な場所から取り出せるようにしておくことも、何もない状態から実現しようと思ったらかなりの手間と費用が必要になる事柄である。特に、「必ず使うわけではないけどいつか使うかもしれない」いわゆる積ん読本が、研究を深めるためには非常に重要なのだが、これを10万冊、100万冊、ということになると、建物や設備を用意して維持するだけでも相当な費用がかかるだろう。本棚も机・椅子も、安全に使えてある程度長持ちするものを購入しようとすると決して安いものではない。そしてそこには人件費も相当にかかっている。また、資料を探しやすくするために、コンピュータで検索できるようにするなら、それをデータ入力するにも人件費がかかり、データを維持し、少なくとも開館時間に利用できるようにするためのコンピュータシステムの運用にも少なからぬ費用がかかる。そういうことをやってもらうのに、たとえば30人必要だとしたら、それだけで1-2億円くらいは毎年かかるだろう。建物もいずれは増築したり建て替えたりしなければならないとしたら、その費用も勘案する必要があるだろう。一方、貴重な資料であれば、鍵付の部屋に保管して、利用希望者が来たら取り出して閲覧させるための対応者が必要になる。ここでも、鍵付の部屋の維持、閲覧室の確保に加えて、これに対応するための人件費がかかることになる。こういったことについてとても言い尽くすことができないくらい色々な要素があるが、とりあえずここまでとして次に行ってみよう。

 図書館の相互貸借サービス。これは全体のコストが見えにくいものだが、何もない状態からこのサービスを構築することを考えてみよう。まず、自分の図書館には当該資料が存在しないことを確認できる仕組みが必要である。常に増え続ける資料について動的に対応できる仕組みを運用するには、それなりの人件費とシステム維持費用がかかるだろう。有料・無料の図書館向け検索システムパッケージがあるのでそれを購入するか自力で導入するといういことになるだろうか。そして、どこに依頼すればいいかを確認するためには、各図書館の蔵書の情報が簡単に探せるようになっていなければならない。これには、各図書館の蔵書情報を集約して検索できるシステムがなければとても大変なことになってしまう。国立情報学研究所ではそれを実現するための共同書誌データ構築検索システムを運用しているそうであり、そこにもやはり、それなりの人件費やシステム維持費用がかかっていることだろう。つまり、各図書館において専門知識を持った図書館司書の一部の時間にかかる分の人件費と、国立情報学研究所に回っているいくらかの(もしかしたらそれなりの)費用とが、このインフラを支えるために費やされているということになる。

 

 図書館に関して、人文系研究者としては、「それは大学の教育研究全般にとって必要だから導入されているのであり自分たちのためだけではない」という風に考えてしまいたくなる。実際、これまでのところはそういう面が大いにあり、人文系研究者としては全体のためのシステムのごく一部を利用するだけでよかった。しかし、少し角度を変えてみると、多くの人文系研究者がそのようなサービスを少しずつ活用しているのであれば、いわば、大がかりな資金が皆に少しずつ還元されているとみることもできるだろう。もしかしたら、一部の人文系研究者は、そういった大がかりな仕組みの構築に貢献してきたのかもしれない。たとえば国文学研究資料館の古典籍のデータベースなどは、そのようなものの一つと位置づけることができるのかもしれない。

 

 具体的な金額がどうかということはともかく、こういう感じで、出版社の方々の才覚と、図書館のインフラに支えられて人文系の研究者の研究環境が提供されてきたために、たとえば実験室や実験器具から自分で資金をとってこなければならなかったり、大がかりなコンピュータ環境を用意しなければ大規模計算ができなくて仕事がうまく進まないような研究者に比べると、恵まれた環境で研究ができてきたと言えるのかもしれない。

 

 このように考えてくると、やはり出版社がこれまで果たしてきてくださった機能を半ば失いつつあるようであることは、その部分に人文系研究者が自ら対応しなければならないということになるのかもしれず、費用がかかる部分については、何らかの方法で外部研究資金を獲得しなければならないということになるのかもしれない。そして、最近危惧しているのは、たとえば先日、母校である筑波大学図書館が資金不足でクラウドファンディングしていたように、図書館のサポート機能が弱まっていくのではないかという点である。まだ貴重資料はきちんと保管していて求めに応じて見せていただける(と信じている)し、既存の図書雑誌はそんなにご無体な形で廃棄されることはない(と信じている)し、図書検索システムはとてもよい感じで運用されている。しかし、一部の強力な大学を除いて「紙の図書はもういらないのでは」という話にいずれならないのかということは、近年の様々な性急な動きのなかでは少しだけ懸念される事項である。もしそのシステムを徐々に失うことになったとしたら、人文系研究はどのようにして展開し得るのか、ということもいつか考えなければならないのかもしれないと思うことも最近は時々ある。

 個人的には、むしろ逆に、大学図書館にはより強くなってもらって、特にデジタル対応を進めることで人文系インフラを強化していく方向に行ってもらいたいと思っているが、足下がどのように支えられてきたのかということも意識していかねばと思っているところである。

 というようなことをこちらのシンポジウムのディスカッションを聞きながら考えていたのでした。

 

 それから、自腹を切って研究に必要な資料を買う、というケースはもちろんあって、それはおそらく今でも人文系研究者の場合結構多いのではないかと思うのだが、研究対象への愛が高じて研究をしている人が結構いて、どんどん本を買ってしまったり、高価な資料にお金を注ぎ込んだりしたというケースをよく耳にする。ただ、その原資がどこから来ているかというのは色々で、とにかく給料しか収入がないのにそれをつぎ込んだり、書いた本があたったから印税収入でどんどん買ったり書庫も作ったり、元々家が資産家だったり親の代から研究者で家に資料がかなり蓄積されていたり、あるいは実家に国宝重文級の資料が色々あったり、多種多様なパターンがあったが、そのようにして、個人でなんとかしてしまっていた方々もおられたようだった。とはいえ、そのことは、個人で入手可能な資料を使って実施できる研究であることも意味しており、人文学全体としてみた場合、それほど多くの割合ではないかもしれない。

 ちなみに、私個人としては、学生・院生時代は頑張ってバイトして学術書やら啓蒙書などを色々買ったりして、個人のお金もそれなりにつぎ込んでいるが、お金を出しても買えない資料も多いのでインフラ的なもののお世話になることが多かったしこれからも多いだろうと思われる。

 

 もう一つ追記しておくと、調査や学会発表のための「旅費」は曲者だ。これは外部資金に依存しないなら、院生時代の先生方は何もせずとも配分される校費のようなものが数十万円はあったようだったが、院生の自分には自腹しかなかった。しかし、哲学・思想という一見すると移動から縁の遠そうな研究科であったこともあり、海外に行くことがなかったこともあり、院生時代は旅費で苦労したことは特になかった。夜行バスを使うことも結構あったが、長距離ドライブが好きで、一般道で京都大学広島大学に行って発表したことも何度かあった。一般道だとガソリン代と体力さえあえればなんとかなる上に途中で誰かを拾っていって安くあげることもできたので、まあなんとかぼちぼちやっていた。自動車を持っていたのか、と都会で学生生活をした人だと驚くかもしれないが、筑波大学のサークル等には先輩から数万円で自動車(決してきれいなものではない)を譲り受ける習慣というか儀式のようなものがあり、名義変更も車検も自分でやっていた。ちょうど、ユーザ車検が始まる前後だったが、開始前も自分でやっていた。当時は業者以外で自分で車検をする人が少なかったこともあり、色々予習してから陸運局に行ってあれこれ聞きながらやってなんとかなっていた。もちろん、自賠責と重量税は安くならないので、それはなんとかバイト代でまかなったが。要は、都会のちゃんとした収入がある人達が乗っているようなピカピカできれいなアクセサリーのような乗り物とは一線を画す何かだったのだ。

 話を戻すと、人文系でも、当時から海外フィールド調査や海外発表が必須の分野も少なくなく、そういう分野の人達は旅費が自腹だと到底対応できなくなるので、外部研究資金獲得に熱心で上手な人が多かったように思う。大学院を中途退学して、東京外国語大学のアジア・アフリカ言語文化研究所というところにCOE研究員として赴任したときに初めてそういう世界に入り込んで、やや内側から見ることになった。当時あの研究所は(調べればすぐにわかるが)巨大な助成金を獲得して旅費を工面しており、同じ人文系でもこんな世界もあるのかとびっくりしたのであった。自分の分野も海外で幅広く展開しており、大学院時代は結局あまり触れることがなかったのだが、この頃から海外の研究者とも交流を持つようになり、旅費確保のための外部研究資金獲得ということも半ば習慣のように身についた。しばらくして母校の先生達が代替わりで国際派の先生方になり、院生向けの海外渡航助成金がいつの間にか充実するようになり、母校の出身分野も全体的に国際的な感じになって外部研究資金獲得も特に目立つようなことではなくなったようだった。

IIIFを外注で導入したい場合には

 デジタルアーカイブを効果的に利用できるようにするためにIIIFの導入を検討しているが、内製は難しい、という機関・組織は日本には少なくないだろう。そこでまず確認してみていただきたいのは、連携可能な関連機関でIIIFにすでに対応していないか、ということである。親組織を同じくする別の組織がIIIF対応のデジタルアーカイブをすでに公開していて、コンテンツを増やしたいと思っていることもあるかもしれない。あるいは、IIIF対応のデジタルアーカイブを公開しようとしていて、関連組織のコンテンツもあれば一緒に公開してしまいたいと思っているかもしれない。構築・公開にかかるコストを節約できれば、その分、コンテンツの充実化にコストをかけることができるかもしれないし、喫緊の全く別の課題に費用をまわせるかもしれない。デジタルアーカイブの現場での様々なトレードオフをなるべくうまく乗り切っていくことは、デジタルアーカイブ社会の実現を考慮した場合にも重要な課題だろう。

 

 さて、色々な事情を考慮した結果、やはり単独で企業に発注する以外に方法がないことがわかった場合、仕様書を作成して発注するということになるだろう。これが入札になる場合、入札参加資格の格付けについても配慮しなければならず、対応可能な企業の存在を確認しておく必要があるだろう。そこで、IIIF対応可能な企業についての情報共有ができると望ましい。以前にも一度、こちらで情報共有したことがあるが、先日北海道大学図書館でIIIFに関する講演をした際に情報をアップデートしたので、筆者が現在把握している情報ということで、以下にリストアップしておきたい。

国内IT企業によるIIIFソリューションの活用

  (現在、永崎が把握している範囲で)

ヴァティカン図書館/近畿大学

国文学研究資料館東日本大震災アーカイブFukushima/国立歴史民俗博物館岡山県立記録資料館

慶應大学メディアセンター/京大附属図書館

  • ㈱ メノックス⇒オープンストリーム

島根大学附属図書館

  • ENUTechnologies

東京都中野区立図書館、練馬区立稲荷山図書館

  • ヴィアックス

九州大学附属図書館

その他、対応可能とうかがっている国内IT企業

  • イパレット(堀内カラー)、TRC-ADEAC、メタ・インフォ

 

他にもご存じの企業/ソリューションがあれば、ぜひ情報をお寄せいただきたい。

「TEIで青空文庫」勉強会を開催します

 人文学のためのテクスト構造化のガイドラインを策定すべく1987年、ニューヨークにて始まったTEI (Text Encoding Initiative)の取り組みは、2016年の東アジア/日本語分科会の設立、2018年、30年の歴史の中で初の欧米外での年次大会開催に至り、欧米の外への対応をより本格化しつつあります。東アジア/日本語分科会では、ガイドラインを日本語で便利に使えるようにするための取り組みを続けてきておりますが、それまでの取り組みが一つの区切りを迎えました。そこで、次の取り組みとして「TEIで青空文庫」勉強会を開催いたします。

 青空文庫について多くの説明は必要ないでしょう。研究者の中でもこれを利用する人は多いようであり(しかしあまり公言されないようでもありますが)、その活用可能性の高さは圧倒的です。また、一方で、お試しで色々なことを試すこともできます。そこで、青空文庫にTEIを適用してみることで色々なことをできるようにしてみよう、さらに、そこでTEIを適用できるようにしたものを共有して、みんなで色々できるようになりましょう、ということで、みんなで青空文庫にTEIを適用してみる勉強会を開催することにしました。

 

第一回は以下のように開催される予定です。(詳細はこちら

2019年1月21日月曜日 18:00〜20:00
人文情報学研究所8F(人数次第では変更になる場合があります)

なお、会場の広さの関係で、参加申し込みをしていただいております。

参加申し込みフォーム

 

 TEIって何?という人は、私の書きかけの原稿や、過去に書いたブログ記事などをご覧ください。TEIは、簡単に使えるものから非常に専門的なものまで、様々なテクストを人文学のために構造的に扱えるようにするためのガイドラインを提供しています。実は、ずいぶん前に、青空文庫の『走れメロス』をTEIに準拠してマークアップしてみたことがあります。その時の記事をご覧いただけば概要はおわかりいただけるかと思いますが(しかもマークアップされたテクストもダウンロードできますが)、TEIの適用の仕方は他にも色々あります。そこで、これも含めていろんなことをみんなで試してみよう、というのがこの勉強会の趣旨です。

 基本的に、TEIは知らないけどXMLJSONなどのデータをプログラミング言語で多少は扱える人か、TEIを知っている人、を参加者として想定しておりますが、ご興味がおありの方はぜひご参加ください。Zoomでの遠隔参加も歓迎です

 

オープンライセンス表示に一工夫を

 あけましておめでとうございます。2018年も色々ありましたが、国立国会図書館デジタルコレクションでIIIFが採用されるという、業界的には大きな出来事がありましたね。IIIFは元々、フランス国立図書館・英国図書館が言い出しっぺに名を連ねている上に、バイエルン州立図書館でも採用して、米国議会図書館でも2018年6月にはIIIFカンファレンス(年次総会)を開催することになっていて…というタイミングで、ようやく日本の国立国会図書館もデジタル化資料共有の輪の中に入ってくれたということで、ほっと一安心の2018年でした。がんばってくださった関係者の方々には感謝すること至極です。

 ところで、この業界をしばしば熱くさせるパブリックドメイン資料の公開とその扱いについて、昨年、少し面白い話がありました。私も少しだけ話をさせていただいた、東京大学学術資産アーカイブ化推進室によるセミナーでのことだったのですが、著作権保護期間が終了していることが確実な資料に関して、「できれば利用したことを明示してもらいたい」というお願いに関するリーガルツールを作ると良いのではないか、という話が出てきたのでした。

 パブリックドメイン資料に関する再利用についての考え方は、立場によってかなり意見が変わってくる話なのですが、私が話をしてきた限りでは、大体以下のような立場に集約できるように思えます。

 

1.パブリックドメイン資料はとにかくなんの規制もなく自由に使えるべき

2.パブリックドメイン資料公開の予算を確保し続けるには利用実績の提示が必要だから:

 2-1.アクセス数が減ると利用実績を説明できなくて困るので:

  2-1-1.再配布は禁止

  2-1-2.ダウンロードも禁止

 2-2.アクセス数はともかく引用・利用を明示したいので:

  2-2-1.引用・利用等についての明示を(義務化|お願い)

  2-2-2.引用・利用等についての連絡を(義務化|お願い)

  2-2-3.頒布物の現物の提出も(義務化|お願い)

3.パブリックドメイン資料でも公序良俗に反する使い方をされると関係者に迷惑がかかるかもしれないので

 ○○○は禁止

 

 完全な利用者サイドとしては1.が望ましいのですが、一方、「誰が使ってるかもさっぱりわからないものをただ義務意識のみに頼って公開し続けるべく予算配分を安定的に行う」ことができるほどの意識が高い人々が多数を占めていたり大きな力を持っていたりする組織はなかなか多くはないように思われます。公開者サイドに立つこともある身としては、2.の事情の切迫感もひしひしと感じます。特に予算担当者や意志決定に関わる方々に対しては、アクセス数の数字を示すグラフの線の角度が良い意味でも悪い意味でも説得力を持ち得ることは想像に難くありません。

 しかしながら、貴重な古文書・古典籍の画像をデジタル化公開したとして、そのものの価値を理解して日々アクセスしてみようと思う人がどれだけいるか、ということを考えたとき、アクセス数を根拠とする予算計上が長続きするような資料を持っているところは決して多くはないでしょう。多くの人が見て面白がりそうな資料をいくつかデジタル化公開したとしても、一通り見終わったら、何度も見に来たり、定期的に見に来てくれたりする人はごく稀になるでしょう。Web公開した場合、入場制限もないのですから、「今日は混雑しているから来週にしよう」という風にもなりにくく、見たいと思った人も最初の数日間に一通り見てしまって、最初だけは大量アクセスを稼げたとしても、再訪を期待できるものかどうか、ということにもなってしまいかねません。それでもアクセス数を稼ごうとするための色々な努力はそれはそれであってもよいと思いますし、私自身もそういう工夫は色々してみております。ただ、どうしてもそれだけでは限界があります。Webに資料が増えれば増えるほど、利用者の皆さんが自分のところのデジタル化古文書・古典籍を見るために割いてくださる時間は減っていってしまうのですから、やはり別なロジックがないと持ちこたえられないところが多いのではないかと思います。

 そこで出てくるのが、「専門家に明示的に利用してもらうこと」です。プロかアマチュアかには必ずしもこだわらないのですが、資料の内容やその価値を理解できる人に、現代人が理解できるきちんとした文脈の中に位置づけてもらないがら資料を使ってくれる形になれば、それは、一人の利用者が一回Webサイト上で資料を見ることに比べると、社会への波及効果としては格段の違いがあります。資料の価値が再発見され、現代社会での新たな位置づけを見いだしていくことができるとしたら、そこには資料を公開した意義が別の形で姿を表すことになると言えるでしょう。このロジックを整理することで、専門家による利用は単なる1アクセスとは異なるという評価の仕方を踏まえることができるなら、デジタル化資料の公開を続けることも多少は容易になるでしょうし、また、専門家による利用を促すことへのインセンティブが高まるのだとしたら、結局のところ、それは資料の価値を再確認して社会に波及させていくという本来あるべき状況を実現することを促すことになるのですから、むしろ歓迎すべき状況になると考えてもよいのではないかと思います。

 そうすると、専門家がなるべく使いやすいような状況を作っていくことが一つのポイントになります。その場合、ダウンロードも再配布も妨げないようにすることが近道でしょう。禁止すると、許諾のための手続きが発生して、その分の人件費がかかります。手続きを定めたり改訂したりするための手続きも発生します。担当者が起案して、会議にかけたり上司が決裁したりするのにかかる時間(=人件費)を埋めるだけの価値のある業務なのかどうか、さらに、それでいながら、利用者にも手間をかけさせることも考えた場合、果たしてそれでいいのかどうか、ということを考えていくなら、許諾手続きを課すことはなるべく避けた方がよいという判断は十分にあり得るでしょう。

 上記のまとめの2-2.以下は、とりあえず気持ちとしては「義務化」と「お願い」の2種類があるように思われましたので、一応、そのように書いてみております。ただ、実質的にはパブリックドメイン資料の利用に関して何らかの義務を課すことは、日本では意味を持たないようですので、義務化をすることによるルールの空洞化を招くよりは、最初から「お願い」にしてしまった方がよいのではないかという気もしております。たとえば、京都大学貴重資料デジタルアーカイブでは、まさに、2-2-3.の「お願い」を提示しています東京大学総合図書館でもこれに続くかのように同様の条件(お願い)を提示しています。

 上記のまとめのうち、3.に関しては、特に申し上げることはありません。資料の性質によってはそういうこともあるかもしれませんが、そのことと、利活用可能性を高めることによる社会への効用とを今一度天秤にかけて検討してみていただけたらと思うばかりです。

 

 さて、そのようなことで、2-2.以下を「お願い」として提示することは、パブリックドメイン資料の公開を続けていくための比較的穏当な道であるように思えます。すでに京都大学東京大学では文章で提示しているのだから、それと同様に文章で書いておけばよいのではないか、ということは、ここまでの話だとその通りなのですが、この件には、もう一つの重要な観点があります。それは、機械可読性、です。

 Webでのデジタル化資料は、今後、各所で様々に利活用されることが命脈を保つ道となっていく可能性が極めて高く、そのためには、「この資料はどういう風に扱ってもよいのか」ということをコンピュータプログラムが判定して、CC BYのURL (https://creativecommons.org/licenses/by/4.0/deed.ja) がライセンス欄に書いてあれば、権利者情報を決して消さないようにして、CC BY-NCのURL (https://creativecommons.org/licenses/by-nc/4.0/deed.ja) が書いてあれば、商用利用サイトにはデータが行かないようにする、といった案配で、URLを見ながら処理を振り分けていくことが必要でありかつ重要になっていくと思われます。この内容自体も機械可読にしようという話もあるようですが、たとえばクリエイティブコモンズライセンスの場合、すでに世界中に広く知られているため、プログラム開発にあたっても、クリエイティブコモンズライセンスにおいて用意されている数種類の選択肢を実装するだけでよいので、URLだけでもかなりの程度通用するはずです。

 しかし、このような環境下では、「パブリックドメイン資料である」と宣言(https://creativecommons.org/publicdomain/zero/1.0/deed.ja)してしまった場合、諸々のお願いに関する情報は伝わらないまま、所蔵者・公開者情報もないままにデータが流通することになってしまう可能性が高いです。多くの利用者は、利用に関しての手間は極力減らしたいのですし、プログラム作成にあたっても、ややこしい処理はなるべく減らしたいのですから、パブリックドメインを宣言している資料を取り扱うのであれば、細々とした情報を付与させようとするインセンティブはかなり低いでしょう。しかも、Webサイトごとに、「お願い」が書いてある頁を読み取ってその意味を検討する必要があるということになると、これもかなり大変ということになります。

 なお、これに関連するものの一つにRightsstatements.orgによる「NO COPYRIGHT - CONTRACTUAL RESTRICTIONS」という宣言があります。これも 

https://rightsstatements.org/page/NoC-CR/1.0/?language=en というURLが用意されるので、少し良い感じがします。ただ、この場合、「何らかの制限があることはわかったが、では実際にはどういう制限があるのか」ということで、実際には極めて多様な内容が想定され、また、それゆえに、それを具体的に説明したWeb頁やその他の情報をいちいち確認する必要があり、やはり、上記のような機械処理にはそぐわないということになるでしょう。

 そこで、間(?)をとって、あるといいかもしれないと思っているのは、2-2-1.、2-2-2.、2-2-3.の各項目をあらわすURL(とそれによって指し示される「お願い」の内容を書いたWeb頁)です。このことが、冒頭に挙げたセミナーで話題となったのでした。もちろん、URLを決めるだけでは十分な利便性を確保できることにはならないため、その内容についてもWeb頁を作成すると同時に広く告知を行い、さらに、そのURLを利用する機関・サイトを増やしていくことで、これらのURLに対応したプログラム作成を行うことの実効性を高めることができれば、やがてこういうものがデファクトスタンダードになっていって、全体として利便性が高まることがあるかもしれません。しばらく前から考えていたことでしたが、上記のセミナーで、特に渡辺智暁先生とお話させていただき、色々とコメントをいただいたことで、この方向性に活路を見いだせるのかもしれないという気持ちが少し高まったのでした。これはライセンスの話ではないので「リーガルツール」などという風に考えるとよいのではないかというお話もいただいたのでしたが、しかし法律はまったく素人なので、やはりそういう方面に通じていて、しかも比較的中立的な感じのところが音頭を取ってくださるとありがたいと思っているところです。

 また、もう少し考えてみると、専門家であれば、所蔵者についての情報を欠くと自分の情報の信頼性が損なわれる場合があるので、2-2-1.については、敢えて書かずとも勝手にやってもらえることの方が多いでしょう。そうすると、設定する意義が大きいのは、2-2-2.や 2-2-3.ということになるでしょうか。

 

 ということで、オープンライセンスに関わっておられるみなさま、本年は、ここら辺のことについて、色々ご検討をいただけますと大変ありがたく存じます。

 

 本件に限らず、デジタルアーカイブに関しては色々考えていることがありますので、また、折りをみてあちこちに書かせていただこうかと思っております。みなさま、本年も、よろしくお願いいたします。

 

歴史地名データをNeatline/Omekaにマッピング

昨年度、人間文化研究機構+H-GIS研究会から、歴史地名データが公開されました。これは単なるテキストデータなのですが、それゆえに大変画期的なものです。何が画期的かと言えば、みんなで自由に加工して好きなように使えるからです。きれいな地図も絵も何もありませんが、代わりに、このデータを使って自分で便利な地図や絵を作成することができますし、それをきれいにデザインすることもできます。さらに、再配布も可となっているため、このデータを使って自分で作った地図や絵をネットに公開することもできます。

 

さて、そこでさっそく、この地名データを使って何かしてみたい・・・と思いつつ半年ほど過ぎてしまいましたが、このたびようやく、諸事情によりこれをいじらねばならない状況になりましたので、少しいじってみました。とりあえず今回は、「城」に関する地名をNeatline/Omekaの地図上に一括マッピングしてみる、と言う内容を例としてあげてみます。たとえば以下のような感じになります。こちらでマップそのものも閲覧できます。

 

f:id:digitalnagasaki:20181121095302p:plain

 

この方法について、以下にご紹介していきます。

 

まず、必要なものは、OmekaにCSVImportプラグインとNeatlineプラグインをインストールしたものです。Omekaのインストールについてはこちらをご覧ください。自力でインストールせずとも、どこかにOmekaのインスタンスを用意してくれる人/部署を見つければよいのですが、自分のパソコンにもインストールできます。

 

 さて、準備ができましたら次はデータの加工です。ここで微妙にややこしいのが、Omeka/Neatlineの場合、メルカトル図法での座標情報を要求してくる点です。一方、歴史地名データでは世界測地系(WGS 84)を用いているため、これを変換する必要があります。この点はNeatlineユーザの間ではわりとよく知られているようで、こちらJavascriptでの変換プログラムも提供されています。これに加えて、データ形式

GEOMETRYCOLLECTION(POINT(15111247.565786 4161286.75838))

という感じにしてOmeka上の(ダブリン・コアの)Coverageフィールドにマッピングしておくと、Neatline地図上にプロットできる座標情報になるみたいです。というわけで、とりあえず、最後のフィールドにこれを追記したものをこちらに置いておきます。計算式が間違っていたり、データがずれていたりしたらお知らせください。

 

 それでは次に、この29万件以上のデータからお城のデータだけを取り出してみます。ここで大変ありがたいことに、この歴史地名データには「属性」がついていて、地名_属性.txt というファイルにその説明が記されています。これを見ていくと、

16,"建物","城",1

という行があります。この16番というのが 地名.txtの「属性」フィールドに対応しているようですので、「属性」フィールドが16となっているものを取り出してみます。この場合、データ量が結構多いので、grep などを使うと便利でしょうか。取り出した上で、さらにフィールド名を先頭行に入れたものがこちらになります。206件ありました。

 

 ここまでできたら、あとはOmekaに取り込むだけです。が、まず最初に大事なのは「コレクション」を作っておくことです。今回は「お城マップ」というコレクションを作成しています。

 次に、以下のようにしてCSVImport機能で任意のコレクション(この例では「お城マップ」)を指定してから

f:id:digitalnagasaki:20181121102449p:plain

 

このファイルを読み込ませると、以下のような感じになりますので、少なくとも Coverageとtitleだけはきちんと選択しておいてください。あとはお好みで。

 

f:id:digitalnagasaki:20181121102212p:plain

 

インポートが終わったら、次はこのデータをNeatlineの地図にインポートします。

 

Neatlineの地図は、コレクション単位等でアイテムをインポートすることができます。この際に、coverageに所定のフォーマットのデータが入っていると、地図上にいきなり一括マッピングしてくれます。今回の場合ですと、以下のような感じです。

 

f:id:digitalnagasaki:20181121102630p:plain

 

加工可能な形でデータが公開されていると、このように、色々自由に活用できるという点が大変ありがたいですね。あとは、まあ、ぼちぼち、手で修正するもよし、もっとデータを加工してからCSVImportするもよし、色々楽しめるのではないかと思います。