読者です 読者をやめる 読者になる 読者になる

デジタルアーカイブの持続可能性に向けて

 「デジタルアーカイブ」という言葉が再び脚光を浴びるようになってきている。人文学におけるデジタル化に関わる者としてはありがたい限りである。古典資料に関しては国文学研究資料館で巨大プロジェクトが動き出しており、科研費の基盤研究でも大型の研究助成金がつけられており、さらには「アーカイブ立国宣言」も出たところである。90年代半ばに肩身の狭い思いをしながら細々とこの種の仕事に取り組んでいた身としては隔世の感がある。

 さて、資金がきちんと提供されてデジタル化が進むこと自体は大変ありがたいことなのだが、すぐに終わるものではなく、また、デジタル化されるべきものは継続的に生成されることにもなるので、事業としてきちんと継続していってもらわなければ困る。継続するために必要なのは「これによって何かの役に立った」ことを明らかにできることが手っ取り早いだろう。もちろん、アーカイブの本質から言えば(それどころか人文学・あるいは学問そのものとしても同様だが)、役に立つかどうかの判断は現代に生きる者だけですべきではないのであって、ただ、そこにあるからアーカイビングして後世に伝えていくべきだ、と言えればいいのだが、その論理でいくと残すべきものとそうでないものとの線引きがやや難しく、では何もかも残していこうということになると今度は予算や人材の限界との戦いということになる上に、そもそも、現状からの何らかの改善を特に提示しないのであれば予算削減の対象になりやすくなるだろう。たとえば、外環道の延伸が、とにもかくにも改善された数値を色々と提示できるであろうことと比べても分が悪く、外環道との比較がかえってやぶ蛇になるのではという心配すら出てきかねない。

 そこで、とりあえず、デジタルアーカイブを作るとこんなにいいことがある、ということを、デジタルアーカイブを作りながら提示していった方がいいのではないかと常々思っているところである。何と言っても、一度予算のついた事業が、きちんと数値化も含めて役立っていることを示すことができたなら、予算削減も少々やりにくくなるのではないかと思うところである。

 ということで、ここでは、「役に立ったことを具体的に提示することで持続可能性が高まる」という仮説に基づいて、役立て方とその提示の仕方という観点から少しデジタルアーカイブについて考えてみたい。(繰り返すが、アーカイビングにおいては、本来、役に立つかどうかということを問うべきではないということを踏まえた上での次善の策の検討であることをご理解いただきたい。)

 デジタルアーカイブを役立てる、と言えば、何と言ってもオープンデータ化である。完全オープンであれば、そこから新しいビジネスの可能性すら生まれてくる。国立国会図書館近代デジタルライブラリーのデジタル画像がアマゾンのキンドル電子書籍として販売されるようになったことは記憶に新しい。これ自体は単にちょっと読みやすくしただけであり、Kindleユーザの中で旧仮名遣いの本を読みこなそうという人がどれだけいるのかと考えるとビジネスとしての成功というレベルにまで達するのかどうかはやや気になるところだが、成功したとしたらそれはそれで喜ばしいことであるし国内の電子書籍業者の皆様にも奮起をお願いしたいところである。本件をマネタイズに結びつけるにはやや難しいところがあるかもしれないとは言え、同じ時期に出版された本のテクストデータは逭空文庫で配布している(版が違うのでそのまま使えるとは限らないが)し、国立国語研究所がこの時期のテクストを形態素解析するための辞書を公開したりしているし、筆者も日本デジタル・ヒューマニティーズ学会のプロジェクトである「翻デジ」のシステム開発を通じて近デジ画像のクラウドソーシング翻刻の可能性を具体的に提示したところであり、色々組み合わせれば少しずつ色々なものが出てくるのではないかという期待は徐々に高まりつつある。

 オープンデータ化するには、すでに著作権保護期間を満了しているか、あるいは、データの生成時点でオープンを前提としていることが必須条件に近い。生成後にオープンにしようとすると、データ生成時にかかった費用をどこに転嫁するかということで話が動かなくなってしまうことが多い。(ただし、例外的に、NII-ELSやJ-STAGE等を通じて過去の学術雑誌掲載の論文が徐々にオープンになってきている点にも注目しておきたい。)そこで、著作権保護期間を満了している資料のデジタルアーカイブの活用という話をもう少し詰めていきたいのだが、そういった資料は、文字や仮名遣いなどが現代のものと異なるゆえに、そのままでは世間一般に届けるにはやや内容がわかりにくい。東寺百合文書Webのオープンなデジタル画像を見て、まず、文字を読める人がどれだけいるか、文字が読めたとして、その内容にどのような意味があるかをきちんと理解できる人がどれだけいるか、ということを考えてみても、やはり、それらを直接に「役立てる」ことができる人というのはほとんど専門家やセミプロに限られてしまうのではないだろうか。

 …ということは実はそんなにややこしい話ではなく、これまで紙媒体でしてきたように、専門家がそういった一次資料を読み解いて様々な形で人口に膾炙する、あるいはそのように使える形に資料を加工して提供する、ということができればいいのである。この場合には、資料をデジタル化したことで専門家がアクセスしやすくなり、より効率的にそういった成果が出せるようになるはずである。これにかかる旅費等も節約できるかもしれない。(なにしろ、苦労して入手した目録情報を確認して現物を見に行ったら見たい箇所が虫に食われていてそこまでの努力が無駄になることを想像したなら、それがデジタル化資料で事前確認できるかどうか、あるいは目録情報だけでもネットで確認することができれば時間も費用もかなり節約できることになる。あるいは、目録情報の所在情報だけでもネットで確認できればそれだけでもありがたいのである。)もちろん、専門家であっても貴重資料なら閲覧するたびに少しずつ破損していく場合もあるので、デジタル化資料の閲覧で済む場合には、そういった問題を避けることができるようになる。いちいち頻繁に出し入れする可能性が著しく減ったなら、現物の保管方法も少し効率化できるだろう。こういった専門家が一次資料を役立てることができるという話以外にも、そういた貴重な資料に広く様々な人がアクセスできるようになり、広く関心を持ってもらえることになったりするといったことももちろんあるだろう。文字資料ではなく、図像資料等であればまた違った関心の持たれ方をすることもあるだろう。とはいえ、やはり、著作権保護期間が満了しているような資料は専門家やセミプロがさらに加工して世間で喜ばれる形にしていくのが一般的であるように思われるので、この加工の部分が「活用」のポイントになると思われる。

 専門家によるデジタルアーカイブの「活用」を、とりあえず二つのパターンに大別してみよう。一つは、入手しやすいだけで紙媒体と同様に扱うというパターン(1-A)である。そしてもう一つは、せっかくデジタル化されているのでデジタル技術を使って何か少し便利な活用方法を適用してみる(1-B)というやり方である。

 前者(1-A)の場合の「活用」は、おそらく日本中で多くの専門家が行なっていることだろう。現物に代わりにはならないものの、現場に行かずに、閲覧手続きをせずに、とりあえずデスクトップでその画像を確認できるのは大変便利なことだし、旅費を節約できることも多い。これが海外の図書館や博物館であれば、一回で数十万円の研究費を節約できることになる。その分を別なことに使えたなら、たとえば大学院生にアルバイト代を出してその資料のテクスト翻刻をお願いできたりすれば、研究全体が振興することにもなってさらにありがたいことである。ただ、ここでの観点からすると、この場合には、「役立ったことを提示する」という点が少し弱いかもしれない。こういった利用の仕方の場合にはアクセスログを数えたりちょっと解析してみたりするという手があり、たとえば筆者が技術担当者をしている大蔵経データベースでは月間30万-50万件のアクセス数を提示して、それをグラフ化したり国別ドメインで分類してみたりすることで、役立っていることを提示しているが、これでは役立ち方の重み付けが難しい。たとえば、アクセス数がそれほど多くなくとも、大変重要な研究成果、あるいは、とても面白い新書の内容等に、デジタルアーカイブに蓄積された資料が役立った可能性もあるが、そういったものはこの提示の仕方では見えてこない。これを解決する、とまではいかないが、論文や著書等の参考文献一覧に、デジタルアーカイブを利用したら必ず記載しておくようにしておけば、それだけでもずいぶん状況は変わってくるかもしれない。さらに、この参考文献一覧を電子化して検索できるようにしておけば(いわゆるサイテーションインデックス的なものを作れば)、比較的容易に、「どう学術利用されたか」を提示することもできるようになるので、さらに効果的になるだろう。先頃、日本学術会議から出た提言のテーマとなっていた「データジャーナル」も、基本的にはこのような問題意識に基づくものだろう。ただし、ここで留意しておきたいのは、こういった種類のデジタルアーカイブは、一次的には専門家にとって役立つものであるので、専門家自身がこのことに本腰になることが全体をうまく回すために必要ではないかという点である。一般の人々に理解を拡げ、支援者を増やしていくという目的もあるとは言え、それも含めて専門家を資するところが大きいものなので、その点は、自戒も込めて、よく自覚しておきたい。

 次に、後者(1-B)の件、つまり、デジタル技術を適用して活用してみるという方法についてだが、ここでも、前者の問題、すなわち、どれをどのくらい使ったかを提示するという点に関しては同じである。ただし、こちらでは、さらに発展的な課題も出てくることになる。デジタルアーカイブを出発点として、デジタル技術を使わなければ見えにくかったことや見えなかったこと、あるいは、見えるようになる可能性を提示することが、ここで扱おうとする活用のパターンである。著作権保護期間が満了していれば、様々にデータを共有し加工することができるので、たとえば、宋代・元代・明代の木版大蔵経高麗大蔵経と奈良平安時代の日本の古写経との内容の違いからそれぞれの関係を推定するといった成果を出すことができる。また、あちこちで公開されている色々なデジタルアーカイブを結びつけて、デジタルアーカイブの利便性を高めるという方向もあり得る。手前味噌な話ばかりで恐縮だが、筆者が技術担当をしている大蔵経テキストデータベースでは、国立国会図書館国文学研究資料館大英図書館、フランス国立図書館をはじめ、国内外の各地のデジタルアーカイブの仏典画像のURLとリンクすることで、各地の一次資料に容易にアクセスできるようにしている。たとえば大般若経を見ながら、それが敦煌文書ではどうなっていたか、東寺百合文書の写本ではどうなっていたか、江戸時代の版本ではどうなっていたか、ということをそれぞれ1クリックで確認できるようになっている。…事例紹介がちょっと長くなってしまったが、いわゆるデジタル・ヒューマニティーズ、人文情報学、文化情報学等と呼ばれる研究領域ではそういった研究が長らく行なわれてきており、すでに色々な学会・研究会で多くの発表が行なわれてきている。もちろん内容はピンからキリまでだが、情報処理学会人文科学とコンピュータ研究会及びその研究発表だけで1000件を超えているほどである。そのような、デジタルアーカイブの活用手法についての蓄積を活かしてデジタルアーカイブの活用実績を積み上げていくことも効果的だろう。一方で、こういった研究の流れの中では、デジタルアーカイブ作成に際して、その活用を前提とした上で留意すべきことについての蓄積も相当に行なわれているので、これもデジタルアーカイブの潮流において活用していくことも有益だろう。また、この種の研究の中にはグラフや地図・年表などで成果をきれいに視覚化することもよく行なわれているので、そういった形でデジタルアーカイブの活用例を視覚的に提示していくことも、デジタルアーカイブの持続可能性に資するところは大きいのではないかと思う。

 さて、まだ書き足りないが、長くなりすぎても大変なので、著作権保護期間中の文化資料のデジタルアーカイブの活用と活用の提示に進もう。実はこれについては問題意識は色々持っているものの、これ、といった決定的な解決策があまり見えていない。ただ、それでも、デジタルアーカイブを作ると言ってさんざん公費を投入した挙げ句、世間が納得するような成果を提示できなかったとしたら、下手をすると逆回転が始まってしまうかもしれないので、やはりできる限りの見通しを立てておく必要があるだろう。

 前項の前者(1-A)の話はもちろん共通した話だが、そもそも、ネットで自由に公開することができない場合が多いので、使ってもらうための障壁がどうしても出てきてしまう。有料になるか、それを所蔵している組織に直接赴くか、ということになる(ここではこれを便宜的に「非公開デジタルアーカイブ」と呼ぶ)。著作権保護期間満了の資料を対象としたデジタルアーカイブに比べると明らかに活用しにくくその成果の提示も難しいという状況にある。ただ、一方で、非公開デジタルアーカイブの場合、専門家だけでなく、直接一般の方々にもアピールしやすいようなコンテンツの割合がかなり多いと思われるので、専門家の介在を期待せずに情報発信を考えていくこともできる。もちろん、そのような公開の仕方の場合には、活用のされ方を提示する方法まで見通した上で企画しておかないと後で大変になるかもしれないので注意されたい。

 さて、非公開デジタルアーカイブと言えども、お金を払ってでも移動せずに見ることができたり、所蔵している組織に赴くにしても、壊れそうな資料を少しずつ出していただいて閲覧していくよりは、現地のパソコン等でざっと見られた方が楽であることは間違いない。さらには、メタデータだけでも外から検索できるようにしてもらえたとしたら、状況はさらによくなるだろう。書籍のネット販売などは、メタデータを公開することで探しやすくしているサービスの典型と言える。小さなサムネイル画像までは公開してしまうとか、書籍であれば一部の頁を見えるようにしてしまう非公開デジタルアーカイブもちらほらみられるので、そこまではギリギリ大丈夫なのかもしれない。さらに言えば、米国ではHathitrustが著作権保護期間中の書籍をOCRして検索や統計ができるサービスを提供しており、フェアユースの範囲内だという裁判所の判決が最近あったところだが、我国では例外規定を除いてはOCRは認められていない(と以前にその筋の弁護士にうかがった)。また、販売は権利関係の処理が難しくなってしまうので、特に公費を投入してのデジタルアーカイブの場合は、どちらかというと、無料で、所蔵組織のみで保存して公開、ということも多くなるだろう。(逆に、「売れるコンテンツ」もかなりあるはずなので、権利関係さえうまく処理できれば、むしろ公費など必要ない場合もあるだろう。)ここで出てくるのが、所蔵組織となる様々な機関間で相互に閲覧できないのか、という話である。それができれば、遠くの劇場にわざわざいかずとも、近所の美術館や図書館で、その劇場に蓄積されているデジタルアーカイブにアクセスして内容を閲覧できることになる。こういったことは、国立国会図書館が図書館間送信ということで最近始めていることと似ているが、これにあたっては、国立国会図書館のみがこういうことを許されるようにと著作権法の改正が行なわれたという経緯がある。これと同じことを美術館博物館の類でもできるようにすべきだというようなことを最近、生貝直人さんがおっしゃっていたが、まったく賛成である。国立劇場もその輪に入れていただけるとなお良いのではないかと思う。ということで、まとめると、非公開デジタルアーカイブの場合には、

  • メタデータは公開して検索できるように(必要)
  • 図書館間送信のような特例をもう少し広い範囲で(できたらありがたい)

といったところだろうかと思われる。ただ、非公開デジタルアーカイブの対象としては演劇や歌謡曲の実写映像やアニメ、漫画、など、いかにも特殊なメタデータを必要としそうなものが色々ありそうであり、一口にメタデータと言っても探しやすいものにするためにはかなりの検討が必要になるだろう。

 その上で、(1-A)と同様に、活用したらそのことをきちんと明記して、その上で、できればデジタル情報として収集できて可視化しやすくなっているとより良い。また、実は非公開デジタルアーカイブを使った研究も、上述の1000件の中に多く含まれている。ここでもやはり、そういった蓄積を活かしつつ、如何にしてうまく活用していくかということも重要になってくるだろうし、如何にして活用しやすい形でデジタルアーカイブを作成するかということも同様に重要だろう。

ということで、とにかく、デジタルアーカイブを活用すること、そして活用されたことを提示することの重要性とその方策についてのメモでした。このメモを発展させた形で、来年1月31日の情報処理学会人文科学とコンピュータ研究会でちょっと話をしてみようと思っておりますので皆様よろしくお願いいたします。