「デジタル人文学」以前の日本の人文系デジタルテキスト研究を探訪してみる

本日、日本デジタル・ヒューマニティーズ学会(JADH)の年次国際学術大会JADH2020が終了しました。リアル開催の予定だったものがバーチャルに途中で変更になり、日程も少し後ろに動かして、それでもなんとかきちんと開催でき、それほど人数は多くないながらも意義のある議論が展開され、相互に認識を深められるとても良い学会になったと思いました。開催を引き受けてくださった大阪大学言語文化研究科の田畑智司先生、ホドシチェク・ボル先生には感謝すること至極です。また、キーノートスピーチを引き受けてくださった東国大学のKim Youngmin先生、IIT インドールのNirmala Menon先生、それから、休日を返上して参加してくださった発表者・参加者の方々のおかげで会も盛り上がりました。大変ありがたく思っております。JADHは、国際デジタル・ヒューマニティーズ連合(Alliance of Digital Humanities Organizations, ADHO)の構成組織として活動をはじめてからもう8年が経っており、行きがかり上、筆者は現在JADH代表としてこのADHOの運営委員会にも参加しておりますが、今や、韓国やインドのDH学会など、新興グループを受け入れる側になっています。

そんなデジタル人文学(DH)ですが、この「言葉」が使われ始めたのは2004-2005年くらいのことで、それ以前はHumanities Computingなどと呼ばれていたようで、学会名としても欧州では Association for Literary and Linguistic Computing (ALLC)、米国では Association for Computers and Humanities (ACH)と呼ばれていました。Digital Humanitiesの語が使われるようになったのと同時期にこの二つが連携して作られたのがADHOで、それ以来、学術大会としてもデジタル人文学/Digital Humanitiesを正式に用いるようになったようです。

私は基本的にこの業界には新参者というか、あとから一人でひょこひょこ入っていったので、それ以前にこういった流れが日本とどういう関係を持っていたのかよく知らないまま活動して、当時、ジョン・バロウズ先生の薫陶を受け英語コーパス研究の文脈でALLCの運営委員をつとめておられた大阪大学の田畑智司先生と知り合い、その頃からお手伝いをしていたSAT大蔵経テキスト・データベース研究会代表の下田正弘先生も意気投合されて、日本にこの流れをきちんと持ってきて定着させねばということで、当時日本のDH的研究の中心であった情報処理学会人文科学とコンピュータ研究会のみなさまとともに、JADHを立ち上げ、2011年にADHOに正式加盟し、晴れて、国際的なDHの公式な日本の窓口を設定することができたのでした。

同様に、今一番力を入れているText Encoding Initiative (TEI)に関しても、一人でひょこひょこ国際会議に入っていって、鶴見大学の大矢一志先生は比較的よく参加していたのでお知り合いになることができましたが、それ以外の日本人にはあまり会うことがないまま、英語は苦手ながら中心メンバーの方々と一緒にご飯を食べに行ったりあれこれ議論を重ねるなかで徐々に雰囲気に馴染んでいったということがありました。もちろん、中心メンバーの半分くらいはADHOと重なっていたので、JADH/ ADHO関連での会合とあわせて仲良くなったということもありました。そういう流れもあってTEI協会の理事も1期だけですが務めることになり、TEI会議を日本に持ってきたり、それまでには認められていなかった特定言語文化圏のためのSpecial Interest Groupの設立に至ったり、ということにもなりました。

ついでに言えば、日本のこの業界にも一人でひょこひょこ、特に後ろ盾もないままに入っていたので、後から考えると何か空気の読めない困ったヤツだったのかもしれませんが、まあとにかく、科研の若手研究Bがとれたことで少し旅費が自由に使えるようになったので、当時は「日本一周研究会開催」という壮大な(当時きわめて交通の便の悪い地方大学につとめていた自分にとっては非常に大変な)プランを進行中だった情報処理学会人文科学とコンピュータ研究会(SIG-CH)にも継続的に参加しはじめて、とにかく自分がやっていることをこまめに発表してみるというところから始めて、そこから今に至っているのでした。

ということで、時期的に言えば、私は「デジタル人文学」が登場するころにこの分野に力を入れ始めたので、それ以前にこの分野が日本でどういう風に展開されていたのか、とくに、TEIをはじめとするテキストエンコーディングがどういう状況だったのか、ということについては、多少調べてはいたものの、基本的にあまりつながりのない状態でやってきていたようなのでした。日頃色々とお世話になっているCHISEで有名な守岡知彦先生にいただいたコンピュータ雑誌の記事を通じて、かつて長瀬真理先生が源氏物語のTEIエンコーディングに取り組んでいたという話を把握していたり、ポスドク時代にお世話になった豊島正之先生がSGMLのTEIやXMLに批判的な記事を書いておられたことは知っていたのですが、断片的な情報で、それらを集めつつ基本的な情報処理についての知識を総合するだけで、2008年くらいまでは日本語でTEIのエンコーディングをするのは高コスト過ぎて、もしやるならかなり周到かつ大規模な計画が必要だっただろうということは判断できたので、全体の文脈を追いかけるところまではやっていなかったのでした。

ところが最近、岡田一祐氏とやりとりをするなかで、情報知識学会のニューズレター等の刊行物のバックナンバーをざっと読む機会を得まして、そこで長瀬真理先生がニューズレターの編集長をするなどしてかなりいろいろな記事を書いておられ、TEIやテキスト・データベースにどういう風に関わっていたかという情報を得ることができました。情報知識学会の過去の刊行物をデジタル化公開してくださった方々には大感謝です。また、ここで、ある時期の長瀬先生のお仕事もかなり把握することができただけでなく、他にどういう人が関わっていたのか、ということも若干ですが見えてきました。

といっても、得られた情報を狭い知識で切り貼りするしかないので、当時の状況をご存じのかたが色々ご教示くださるとありがたいのですが、どうも、かつて、JALLC日本支部と、JACH(テキスト・データベース研究会)というのがあったようです。欧州のALLC⇒JALLC、で、米国のACH⇒JACH、ということだったようで、内実はともかく、名称はそれぞれ引き継いでいたようです。いずれにしても、テキストデータベースを作ろうという動きがそれなりに活発で、当時私でも聞いたことがあったヘーゲルデータベースやフッサールデータベースなどの哲学系の日本発の著名なテキストデータベースもそういう流れとリンクしていた面があったようです。自分が忘れているだけで、もしかしたら、情報処理学会人文科学とコンピュータ研究会の過去の研究報告や『人文学と情報処理』などにも書いてあったのかもしれませんが(特にイベント情報などがあったかもしれませんが)、ようやくそういった点と点が頭の中でつながってきたということかもしれません。ALLCやACHの仕事をする前にJALLC日本支部やJACHと言われてもそんなに関心を持てなかったかもしれないとも思います。

それはともかく、情報知識学会のニューズレターの1988年設立記念号には、なんと千葉大時代の坂井昭宏先生が、「コンピュータのなかの古典」という記事で、当時のJACH(テキスト・データベース研究会)の活動を紹介しておられます。これを見ると、当時千葉大でヘーゲルデータベースを作っておられた加藤尚武先生を中心として、千葉大の哲学系はテキスト・データベース構築の拠点の一つであったようにも想像されます。当時、哲学研究はテキスト・データベース構築をリードする存在であったこともこの記事からはうかがえます。また、後に人工知能学会会長を務められる堀浩一先生のお名前が見えるのもなかなか貴重です。もちろん、我らが塚本先生もコンピュータ梵語仏典研究ネタで名前を連ねておられます。この記事から想像するに、JACHは海外系、JALLCは日本語系だったのかもしれない…ということも想像されます。とにかく、第一号からいきなり盛りだくさんな感じでびっくりでした。

一連のニューズレターのなかではテキスト・データベースに関する情報とともにTEIの話もちょこちょこでてきます。特にTEIに関することが大きく採り上げられるのは、1991年10月の長瀬真理先生による「TEIの活動と今後の展望」です。この時には、長尾真先生が中心になってTEIの受け皿作りが検討されていたことがあったようで、なんともすごい話だったようです。前出のJACHとSIG-CH等が組んで当時TEIのチェアをしていた Susan Hockey先生を日本に招待されたことも書いてあります。守岡先生にいただいたコンピュータ雑誌の記事もこの時のものだったようで、長尾先生も出てくるような話ですので、かなり多くの人に注目されていたのかもしれません。もちろん、今の技術水準から考えると、当時、SGMLで日本語の人文学テキスト資料をあれこれするのはかなり高コストで、ちょっと難しかっただろうし、あまりうまくいかなくても仕方がないだろうな…と思わざるを得ませんが、当時、いろいろな可能性があったことは想像されます。

TEIに注目してみていくと、1992年4月の記事では、三木邦弘先生による「JACH第14回研究会に参加して」という記事のなかで、土屋俊先生がTEIの現状報告をしておられたこともうかがえます。なお、この記事では、JACH研究会が初めて東大大型計算機センターを離れて仙台で開催され、それにあたって尽力されたのが塚本先生であったことも書いてあり、これもなかなか興味深いところです。

しかしながら、このあたりから、TEIの話はちょっと見えなくなってきます。ベルゲン大学のヴィトゲンシュタインのDBの記事で長瀬先生がTEIの拡張的な利用に言及されますが、その後はちょっとうまく見つけられませんでした。ちなみにベルゲン大学でこのDBを担当していたEspen Oreさんは、その後2010年に日本に来てTEIのレクチャーをしてくださったことがあり、短い時間の中でTEIガイドラインのカスタマイズの仕方までやっておられたので、この記事をみて、ああ、なるほど、Espenさんは筋金入りなんだな…と思ったところでした。

さて、ここら辺である程度検索キーワードが見えてきますので、改めてちょこちょこググってみますと、なんと1994年3月の国立国語研究所によるアンケート調査報告「海外のテキスト・アーカイヴにおける管理・運営上の問題点について」のなかで「TEIを知っているか」「使うつもりはあるか」等の質問項目があります。まあ、94年3月だと、まだSGMLだし、そんなにのめり込んでいるところは多くないですよね…というところでした。さすがに、オックスフォードは前のめりのようでしたが。

その後、90年代後半~2006年くらいまで、TEIに関する日本語の記事は全般的にあまり見つかりません。1999年の人工知能学会誌に土屋俊先生が第一著者として「音声対話コーパスの共有化へ向けて」という論文を載せておられますが、この段階ではSGMLのTEI ガイドラインP3を使用していて、脚注のなかで当時W3Cで策定中のXMLについての記述が見られ、やはりSGMLでかつUnicodeも十分に使えない状況だと大変だっただろうな…という印象が先に立ってしまいます。

一方、この調子で、徐々に過去の様々な資料がWebで簡単に探索できるようになっていけば、もう少しそういったかつての実情も確認しやすくなっていくのではないかとも思っております。もしかしたら、他にも踏み込んで取り組んだ方々が日本におられたかもしれません。とはいえ、個人的な印象としては、この頃、このような草の根的なテキストデータベース的なものが下火になっていったように思っております。取り組む人たちの世代的にもちょっと隙間が空いているような感じがしています。

いずれにしても、TEIガイドラインがXMLの特性を大幅に活かしたバージョンであるP5をリリースし(2007年)、かつ、Unicodeがそこら辺のパソコンでも普通に使えるようになってくれないことには、日本語資料での利用はかなり難しかったのではないかと想像されます。

ところで、この件であれこれググっていたら、1997年の長瀬先生による「人文・芸術系のデータベース -今そしてこれから-:5. 文学データベース -急がれる総合的な環境整備-」という論考を発見しました。ここに今でも通じる大変示唆的な一文を発見したので引用させていただきます。

今後、日本でもハイパーテキストの開発が進むと思われるが、その場合、ぜひとも文学や古典の専門家、それも複数の研究者の協力を得て付加価値の高いハイパーテキストの作成を心がけて欲しい。とくにソフト開発者に希望することは、やはり現場の研究者や利用者の意見の尊重である。技術系主導で作られたデータベースは汎用性を考慮するあまり、小回りがきかず、実際の研究では役に立たないことが多い。また既存の技術から応用発想することが多く、冒険的、実験的、個別的・特殊なテーマへの挑戦を嫌う。予算の問題もあろうが、貴重な題材がただ切り刻まれて、どこにもでもある無難なできで留まってしまうのは非常に残念なことである。また、せっかくよいソフトやデータベースを作っても、開発が終わると、一件落着といわんばかりにテキストに対する興味を失ってしまう開発者が多い。古典作品の研究に終わりはないと同様、データベース開発にも終わりはない。

…(略)…またネットワークにより国際的な協同作業がやりやすくなると同時に、複数の研究者間の意見調整も難しくなる。少しずつ公開されるたびに、参加する研究者の数も増えてくる。こうしてハイパーテキストは新しい解釈を生み出しながらネットワーク上にシェアを広げていく。こうなるとサポートや技術支援は作品の研究と同様に永遠に続くかもしれない。こういった事情を考慮して長期の協力体制を組んでいただきたい。

これは、デジタル人文学のみならず、現在でいうところのデジタルアーカイブの課題そのものでもあり、さらに言えば、ここで要求されているレベルのことが、むしろ文学や古典の専門家の側でできているのかという反省も含めて受け止めていきたい文章です。このような見通しをお持ちだった長瀬先生が2002年に夭折されたことは、返す返すも残念なことでした。

技術は進展しても、それを扱う人間の側はそんなにすぐには変わりませんので、少しずつでも着実に、ということで、これからも進んでいければと思っております。TEIガイドラインへのルビの提案は9月末にようやくできたところですので、それがよい手がかりになればと思っております。