デジタル・ヒューマニティーズ（デジタル人文学、人文情報学、etc...）がよくわからない人のために

　デジタル・ヒューマニティーズ（デジタル人文学、人文情報学、etc...）がよくわからない、という質問をよくいただきます。そこで、なるべくわかりやすいようにご説明すべく、ブログ記事をしたためてみました。とりあえずここでは、デジタル・ヒューマニティーズをDHと略しておきます。

　すでにあちこちに「DHとは何か？」という文章を書いているのですが、どうも肩肘を張った感じになってしまって、結局肝心なところをうまくお伝えできていないような気がしてしまっておりまして、もうすこしぶっちゃけた感じでお伝えする方法をちょっと模索してみたいと思います。

「DHとはデジタル時代における人文学の在り方を模索する研究領域である」

という風に一言でまとめられます。しかし、この説明ですと、人文学にどっぷり浸かっている人にはそれなりによくわかるのではないかと思うのですが、それ以外の人には全然わからないのではないかと思いますし、また、これだけだと具体的な内容が全然わからない、という人も多いのではないかと思います。そこで、もう少し別な角度から考えてみましょう。

「古文書や草稿などの一次資料を批判的に解釈して学術的利用に耐える高度な資料や新たな知見を提供するという営みは、人文学の重要な仕事の一角を成してきた」
「さらにそれらを踏まえて世間一般に新たな文化社会的価値を提起する仕事も人文学の一部であってきた」

という風に言うことは可能だろうと思います。これがデジタル時代になるとどうでしょう。

（１）古文書や草稿などの一次資料は徐々にデジタルアーカイブとして共有されつつある
（２）学術的利用に耐える高度な資料の提供もデータベースで行なわれるケースが出てきている。
（３）新たな知見の発見と提供にもデジタル技術の適用が可能になりつつある。（発見については、テキスト分析をはじめとする様々なデジタル技術、提供に関してはネットでの情報共有や、学会での発表、電子書籍、電子学術論文としての刊行など、研究活動に関する一連の活動を想定しております）
（４）それらを踏まえた世間一般への諸々の提起（これは役割としては新書的なものを想定していますが）も電子書籍での提供が可能になりつつあり、ブログ等が部分的にはその機能を担いつつある。また、「デジタルアーカイブ」の中には直接に一般向けて発信することを想定している例も少なくない。

と言う風な感じになろうかと思います。こうなってくると、たとえば情報工学に深入りしている方々やシステム論的な事柄が好きな方々の中には、統一的なシステムを作ってしまおう、ということを考える方々も出てくるだろうと思います。そもそもたとえば、Ted NelsonのXanaduなどはこういうものを統合的に（利用者への課金・作成者への報酬も含めて）行なおうとするものだっただろうと思いますと、そういう発想は割とよく出てくるものだろうと思います。

　一方で、オープンデータ・オープンアクセスなどの動きは、こういうものを一通り無料で行えるようにすることで、あるいは（１）（２）（３）に無料でアクセスできるようにすることで、（４）に関われる人を増やして文化的活動の裾野を拡げ、を全体として活性化しようという意向を含んだものと言えるでしょう。

　さて、ここで、DHがどういう風に関わるのかと言いますと、やはり一番派手なのは、（３）から（４）をコンピュータでやってみよう、という話です。ただし、ただコンピュータでやってみようということですと、情報工学での研究との違いがわかりにくいです。DHが「人文学」たり得るのは、そのプロセスか、あるいは成果が「人文学」と関わりを持っているからです。そこで、いくつかの例を想定してみましょう。たとえば、

「これまで紙で行なわれてきた研究の成果が、コンピュータを使って解析してみると実は違っていた」

ということが言えると、DHの面目躍如、といった感じになりそうですが、実は必ずしもそうではありません。「コンピュータを使って解析してみた」成果の正しさを証明することが、人文学の場合、ちょっと難しいことがあります。ある単語の登場回数をカウントするくらいならまあそれなりに確実にできます。しかし、たとえば「この本の著者は○○と言われていたけど実は○○である」というような場合には、もう少し色々なロジックが必要になります。たとえば、

「この本Aではこういう単語群の使用頻度が高いけどこの著者Zの他の本ではこういう単語群の使用頻度が高い。一方、問題になっているこの本Cではこの単語群の使用頻度が高い。よって、この本Cの著者はZであるorではない」

というようなロジックが考えられます。しかし、この場合には、単語群の使用頻度の高さを著者判定に用いることの適切さを証明しておかないと十分な証明にならないでしょう。
…という感じで色々やっていくなかで、単語群の使われ方をグラフで表示してみて、「このグラフとこのグラフはこういう風に似ている」などという形になっていくのが、DHにおける視覚化（or可視化、visualization）と呼ばれるものの一部です。

　さて、ここで他にも色々な問題がついてくることに気がつきます。「この本A」や「著者Zの他の本」「この本C」のテクストデータは本当に正しいのでしょうか？ツィッタやブログの記事の解析と異なり、古い本だったりすると、テクストデータがないので紙の本からデジタルテクストを入力することになります。これを私は「デジタル翻刻」と呼んでますが、ここで入力したデータが信頼できる資料に基づいているものかどうか、きちんと校正が出来ているかどうか、ということが気になってきます。とにかく、テクストデータが間違えていると、うまく結果が出ないことがあります。そういうものは「誤差」とみなせば問題ないという立場もあり得ますが、それも程度の問題ということがあります。ということで、ここら辺の問題について見ていきましょう。これは主に上記の（１）や（２）に関わってくる問題です。

　まず、テクストデータが信頼できる資料に依拠しているか、というところから考えていきましょう。

　文化資料としてのテクストには、しばしば、様々なバージョンがあります。古いものでしたら、たとえば聖書や仏典など、まずは写本から始まります。もちろん、たとえばイエスやブッダ、孔子、ソクラテスなどは、自分で文章をしたためたわけではないとのことですので、そういった先哲が残した言葉そのものを扱うことはできません。しかし、弟子等の周囲にいらっしゃった方々が色々な形で写本を残したりしています。それらが時々どこかから発掘されたりして、それが筆写された時代のテクストがわかるということになります。もちろん、写本ですので間違いを含む場合があります。また、筆者されていく過程で内容が縮小・増広・改変されたりすることがありますので、それらをつきあわせて「元のテクストはどうだったか」ということを検討する必要が出てきます。あるいは、「この内容のテクストはこの時期にこの地域で広まっていたようだ」という風に扱う方向性もあります。さらにまた、写本のテクストは必ずしも明瞭にすべての文字が読めるわけではありません。虫食いや朽ちるなどして読めないということもよくあることです。そうすると、「色々な写本で内容が違うものをどう扱うか」「読めない箇所をどう読むか」ということが、信頼できる資料かどうかという点で重要になってきます。これは、「テクスト校訂」「学術編集」などと言われる、人文学の重要な課題の一つです。どちらかというと、前者は「正しい元のテクストを求める」場合に用いられ、「正しい元のテクストであることは保証できない上にそれぞれのテクストに価値がある」というような立場だと後者が用いられる場合が多いような印象があります。

　こういった点について、たとえば新約聖書では、新たに見つかった新写本の内容を踏まえて、時々テクストを再検討して、その成果を出版しているそうです。仏典でも、サンスクリット語の写本がネパールやチベットから見つかったり、中国語（訳）仏典の写本が日本のお寺にあって読めるようになったりというようなことが現在でもしばしばあり、そのような動きはとても盛んで、研究の最先端の一部を形成しています。また、特に東アジアでは、木版本の伝統が長いことから、木版本もこの「テクスト校訂」「学術編集」に用いられる場合がよくみられます。

　こうしてみると、近現代の書物、あるいは活版の書物には関係なさそうな気がしてきますが、そうではありません。たとえば、小説においては、まず著者が書いた「草稿」があって、編集・校正を介して出版に至ります。出版された後も、字句の訂正が行なわれたり、旧仮名遣いを新仮名遣いに変更したりします。そのような過程における様々な「変更」は、たとえば「この本の著者は誰か」ということを検討する上でも少しネックになってくることがあるかもしれません。少なくとも、草稿から出版物に至る一通りの過程を把握した上で分析する必要が出てきそうです。

　さて、ここまで来ると、（１）と（２）が深く関わっていることが見えてきたかと思います。まず（１）の方ですが、写本や木版本は、いわゆる「デジタルアーカイブ」ですでにたくさん公開されています。近現代の作家の「草稿」も、有料ですがDVDで販売されたり有料サイトで公開されたりする例が我国では散見されるようになってきました。いずれも、図書館や所蔵している機関に行けば見られることもありますが、時間や費用がかかる上に、見れば見るほど貴重な資料が少しずつ劣化していきますし、見なくても経年変化で劣化しますので、なるべく早い時点でデジタル化されるだけでも基本的にとても良いことです。ただ、筆者としては、文化資料に本格的な関心を持つ人の間口を少しでも拡げたいという気持ちがありますので、なるべく無料で公開していただけたらと思っておりますが、資料を維持していくことにかかる費用も必要ですので、そことの兼ね合いも重要だろうかと思っております。

　いずれにしましても、この時点から、DHに関わる課題は色々と出てきます。基本的には、研究者にとって使いやすいものになっているかどうか、ということです。欧米のDH会議に参加すると、この時点から研究者が積極的に関わっている例が多くみられます。用途を想定した上でデジタルアーカイブを構築していくことは、（２）以降のプロセスを効率化するだけでなく、研究者自身が最初から関わることによるコミュニティの活性化という側面もあるようです。たとえば、米国の政府系研究助成団体である全米人文科学基金（NEH）では「アクセスと保存」という募集領域をたてて（これ以外に「DH」の募集領域ももちろんたてています）、こういった研究を積極的に援助しているようです。DH関連の学会等でのこれに関わる研究発表をみた印象ですと、アーカイブズとしての関心はもちろんですが、資料が作られた言語文化による扱い方の違いといったことも発表されることがあります。また、公開したデジタル画像に対して翻刻を行なう機能や注釈をつけていく機能を組み込んだデジタルアーカイブというのも色々と作られており、そういったもののテクニカルな側面、あるいはそれを運営するにあたってのコミュニティの在り方といったものが研究発表されることもあるようです。立命館大学のアートリサーチセンターで提唱されているARCモデル（研究者自身が所蔵機関を訪れて撮影からメタデータ付与までをすべて担うことで効率化する）もこのような観点から見ることで興味深さが増すように思います。

　また、使いやすくする、というだけでなく、公開にあたっての条件、つまり、ライセンスについての発表も散見されます。基本的にはオープンライセンスで公開することで、デジタル文化資料の一次配布元が資金難等に陥って公開できなくなったとしても、他のところで公開できるようにするという考え方が広く共有されているようです。このため、資料はXMLで記述し、記述ルールもなるべく共有しようということでTEI (Text Encoding Initiative) ガイドラインを皆で作成・改良していこうという動きがかなり広まっているようです。XMLですと、いわゆるデータベースの機能として提供されるような内容も含めて、かなり細かい注釈的な事項も記述・共有できるということが広まっている理由の一つなのでしょう。我国では、どちらかというとまだTEIのような考え方は広まっていないような感じがしますが、せっかくすでにあるので、これをうまく日本語資料向けに拡張できればと個人的には思っております。それに、もちろん、オープンライセンスを採用して公開することで、広く一般の人々も文化資料に接し、さらには研究に参加していけるように、ということも考えられているようです。「Public Humanities」という考え方も欧米では広まってきているようで、そのような流れが人文学の戦略の一つとして位置づけられつつあるのだろうと思っております。

　さて、そういった一次資料から、学術的にも信頼できる資料を作っていくという（２）に関しては、欧米では先述のText Encoding Initiativeが中心となって本格的な取組みが行なわれています。とにかく、「このテクストにはどういう根拠があるのか」「このテクストはどういう情報と関係を持っているのか」ということについての様々な角度からの注釈を行ない、それをコンピュータがうまく処理できるようにするための記述手法が２０年以上にわたって積み重ねられてきており、初見では圧巻の一言です。ただし、「どのような深さで注釈を記述するか」ということについては記述者の任意であり、TEIに準拠して記述した、といっても多様なものがあります。段落程度しか記述してないものから、「どの箇所はどの一次資料（写本・草稿・刊本等）に基づいているか」ということを紙媒体での脚注のレベルかそれ以上に細かく書いているものもあります。また、言語コーパスのように、単語毎に分割して、それぞれに原形や文法的な役割まですべて記述しているものもあります。いずれにしても、少なくとも「この電子テクストはどういうものか」という書誌情報的なものについては確実に共有できるようなルールになっています。その上で、細かく色々と注記を書いた場合にも共通の記述ルールを利用することで、共有しやすくしています。

　と言う風になってきますと、やはりこのTEIの取組みにおいても、言語文化毎の特性が反映される必要がでてきます。すでに欧米の資料に関してはかなり対応が進んでいますが、日本語の資料に関してはまだまだです。たとえばルビや割注への対応は独自に行なわねばなりません。こういったことについては、ローカライゼーションの議論として、色々な研究発表が国内外で行なわれてきており、扱い方によっては研究成果にもできるようになっています。

　別の観点として、このレベルでは（あるいは（１）で問題になる場合もありますが）、文字の「正確な」記述をどうするか、ということもあります。特に東アジアではずっと漢字を使ってきており、我国では変体仮名の伝統もあります。いずれも、少しずつ字形の異なる文字が大量に存在しており、これらの違いを完全に記述することはなかなか難しいです。少し前までは、これに対応するには独自に文字コードを作るしかない、ということが言われていましたが、近年、文字が持つ個別の文化的事情についてUnicodeが大変柔軟な姿勢を示すようになってきており、やや時間はかかかるものの、Unicodeを利用するのが極めて有力な選択肢になってきているように思います。特に、独自文字コードを利用する場合、独自文字コードの維持管理に大きな手間がかかること、それを活用できるアプリケーションの開発にさらに手間暇がかかってしまう上に、独自文字コードに対応できないコンピュータ環境・アプリケーションではテクストが判読できなくなってしまうという問題があります。この点、Unicodeでは、国際標準化機構で文字コードが維持されることになるため、維持についてのコストを広く薄くできるという点と、ほとんどすべてのコンピュータ環境で問題なく利用できるという点がとても優れています。また、個別の文化的事情という意味では、Unicodeが依拠する国際標準化機構の規格であるISO/IEC10646では認められない微細な字形の違いが問題になることがありますが、この点については、Unicode協会の方で最近、IVS (Ideographic Variation Sequence)という規格が作られ、徐々に広まりつつあります。これにより、任意の団体が、Unicodeに基づいた独自の異体字ルールを作成し、それをUnicode/IVS対応のOS・アプリケーションで利用できるようになりました。手前味噌な話で恐縮ですが、筆者が関わっている仏典データベースプロジェクト、SAT大蔵経テキストデータベース研究会では、いわゆる外字約6000種をISO/IEC10646に登録する活動に取り組んでおり、そのうち1500文字程度がCJK統合漢字拡張Fに登録される見通しとなっています。また、悉曇（梵字）の日本独自の異体字の登録にも取組み、これはUnicode 8.0にて登録される見通しです。そのようなことで、登録には短くとも数年を要するものの、文化資料に必要な文字を安定して運用するにあたっても、Unicodeは重要な役割を果たし得る存在となりつつあります。
　さて、制度的にはそのような感じになりつつあるのですが、DHとしては、文字をデジタル化する際にどのような問題があり得るか、というところから、このような制度の在り方も含めて、デジタル時代に文字がどのように扱われるべきかということが一つの重要なテーマとなっており、これに関わる研究発表も時々見られます。

　また、ここで作られた信頼できる資料についても、オープンライセンスで公開されているかどうか、ということも重要です。先に述べたように、オープンライセンスで公開することを奨励する方向性もDHでは強いです。DHの取組みの中には、アカデミア以外で職を得るという話もありまして、アカデミアから出ていっても研究に取り組めるようにするということも重要な課題であり、オープンライセンスを支持する原動力ともなっているようです。

　というようなことで、（１）（２）がDHにおいてどのように研究として取り組まれてきているか、ということをざっと見てきたつもりです。採り上げてない観点も他にも色々あろうかと思いますが、それはそれでまたどなたかフォローしてくださいますとありがたいです。

　さて、（３）（４）に戻りましょう。（４）は、活動としては結構わかりやすいと思います。一般向けに、データベースをモディファイして公開するという話です。ただ、これを研究成果とするとなると少し難しいところがあります。「こういうものを作りました」という発表もあるにはありますが、「これによってこういう成果があがりました」ということも求められがちですので、利用者アンケートをとったり、利用者動向をログで確認したり、といったことを行なう場合もあるようです。もちろん、技術的に目新しい内容があれば、それはそれで発表されることもありますが、基本的に、（４）はターゲットが「利用者」になってしまうので、ちょっと発表の仕方に工夫が必要になるようです。
　（３）は、DHの華です。上記では、著者推定の例としてご紹介しましたが、文章の特徴、言葉の使い方の特徴から文化的背景まで様々なことをテクスト分析によって明らかにしようとする発表が色々あります。また、中には、「中身を読まずに分析したい」というニーズもDHでは一つの流れとして存在しており、そこでは、どのようなアルゴリズムを用いてテクスト分析を行なうのがベストか、ということが模索されているようです。さらには、自分で考えたアルゴリズムを使って他の人も研究・検証ができるようにと、分析ツールそのものを開発・公開してしまう例もあります。いずれにしましても、コンピュータによる分析の結果をいかにして人文学の文脈にのせて発表するか、ということがDHにおいては肝要となりますので、そのためには、信頼できる資料に基づくことが必要であり、（１）、（２）といかにしてうまく連携して、良い資料を使えるようにするか、ということが重要となってきます。ここのところは、必ずしもうまくいっているわけではなく、さらに広く深く追究されていくべきところかと思います。こういった事柄の、技術的な側面から明らかにした内容、あるいは制度面に至るまで、様々な観点からの発表がDHの会議では数多く行なわれています。

　それから、最近は、GISを活用した研究もDHにおいて広がりを見せつつあります。基本的には、GISは、対象を地図上に可視化して新しい視点を得るという意味で大変有益なものであり、さらに年表とも組み合わせる（H-GIS）ことで、有効性を高める研究も増えてきています。ただし、人文学においては必ずしも正確な座標を必要とするわけではなく、むしろ主観的な距離・位置をどう扱うかという方法論的な問題に着目する研究もあるようです。古地図を対象とした研究もそのような観点を含み得るようです。

…というような感じで、「DHとはデジタル時代における人文学の在り方を模索する研究領域である」の実際の内容についてちょっとご説明してみたつもりなのですが、いかがでしょうか？

　実は、書いていて、DHの研究活動の背景事情がわかりにくいような感じがしてきたので、もう少しぶっちゃけた感じのことを書かせていただきます。これは、研究者業界のやや世知辛いところに身を置かないと見えにくいことなのですが、DHの研究としての面白さということをちょっと離れて、欧米のDHの背景を眺めてみると、大体以下のような感じです。

(a) 人文学研究は世界的に予算削減・ポスト削減の傾向にある
(b) 「グローバルな」「学際的な」研究は世界的にも予算がつきやすい傾向がある
(c) 研究者ポストについては他分野との競争に曝されている面もある
(d) 目に見えやすい「研究成果」が求められている。
(d-1)評価の高い学術雑誌への論文掲載を頂点とする評価システムでの評価
(d-2)新聞等の一般メディアに好意的に採り上げられるという意味での評価
(e) 博士号をとった若者の職を大学教員以外も視野に入れて確保しなければならない
(f) 最新のメディア・技術を用いた目立つ成果を求められる傾向がある
(g) 一般の人々の間に人文学への理解者の輪を拡げていこうとしている

内容的に若干かぶるところがあって恐縮ですが、大体このような傾向に対応するために、DHの研究領域としては、若手研究者が費やした時間と労力を如何にして最大限に評価されるようにして、結果として人文学的な研究に取り組む人達のパイを拡げるところにつなげるか、ということを目指しつつ活動しているような感じです。「グローバルな共同研究をするということで研究助成金を確保して研究を行ない、大きくて立派な国際会議で審査を経て発表を行ない、査読付の学術雑誌に論文を掲載する」ということを繰り返してポストを得るのが一つの良いパターンであるようです。グローバルな共同研究につきましては、筆者のところにも時々国際共同研究の申請書類を一緒に出そう、という誘いが来るほどですので、世界的には相当なものだろうと思います。米国で数年仕事をして、次は欧州で、というような感じで各地でポストをまわっている研究者が比較的多くみられるのも上記のような傾向が背景にあるのだろうと思っております。

と、とても長くなってしまいましたが、DHがどういうものかをおおまかにご理解いただくための一助となりましたら幸いです。