人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

https://bungaku-report.com/blog/2022/07/tei1.html

初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものです。日本語文化圏でも、TEI ガイドラインに取り組むにあたっては Web に様々な情報が各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていました。とはいえ、Web の海に浮かぶそれらは、論文であったり、Web コラボレーションシステムに組み込まれたサイトであったり、英語で書かれたTEI ガイドラインの部分的な翻訳や解説動画の日本語字幕など、どれも有用ではあるものの、どこから始めるべきか、どこまで確認・習得すれば実用しても問題ないのか、そもそも実用とはどういうことなのか、といったことがなかなかうまく把握できない状態でした。本書は、そのような状況に対して、最初にどこから始めればいいのか、どこまで深く取り組めばどの程度の有用性が出てくるのか、といった、TEI ガイドラインの総体的な把握の仕方について１冊のまとまった単行本という形で提示すべく用意されたものです。

その内容は、人文学、なかでもテキスト研究において国際的な共通言語を志向する形となっている TEI ガイドラインをめぐるこれまでの歴史と葛藤など、その取り組みとしての全体像を把握するための章が提供されており、続いて、そこで活かされるテキストデータを手書き文書から作成するための Handwriting Text Recognition（HTR）における最先端のソフトウェアの一つである Transkribus[2]の使い方のガイドと、それに加えて、実際の活用例が示されています。

この次には、そのようにして作成されたテキストデータを構造化するための基本的な手法についての解説が掲載されています。ここでは、かつてオックスフォード大学の DH を支え、現在はニューカッスル大学で中世英文学と DH の上級講師を務める James Cummings 氏がかつて作成した教材を、その基本的な枠組みを活かしつつ、日本語資料やその特性にあわせて改編したものが実践演習として提供されています。そして、用意された資料のマークアップを通じて、TEI ガイドラインに従ってテキストデータを構造的に構築していく際に必要となるパソコン操作のための効率的な手技と、人文学研究を前提としたデータ作成に際しての現代的なコンピューティングにおける基礎的な考え方の両方を習得できるようになっています。この教材で用いられているのは夏目漱石の書簡のデジタル画像です。漢字仮名交じりの合略仮名も含む筆致のテキストを、その筆致の特徴を活かしつつ利便性も高める形で構造化しようとするなら、様々な要素に配慮しながらマークアップをする必要があります。あくまでもチュートリアルであり、十全な成果が得られるものであるとまでは言えないものの、これを通じて人文学研究におけるテキストデータ構造化の基礎を習得できると思います。

なお、この夏目漱石書簡デジタル画像は、東北大学附属図書館から自由な再利用を可能とする利用条件で最近公開されたものです。すなわち、この実践演習、引いてはこの書籍は、デジタルアーカイブ公開画像を二次利用した成果物と位置づけることもできます。

また、書簡を構造化するだけではその意義や効果がわかりにくいこともあるでしょう。そのために、構造化テキストを、その構造に基づいて活用するための簡単なチュートリアルも用意されています。ここでは、XML エディタの機能を活用する方法や、XSLT という言語で簡単にテキストを変換処理する手法などを実践的に習得できるようになっています。

第三部は、様々な資料に対して TEI ガイドラインを適用した場合の事例研究の紹介です。日本の古辞書や財務資料、近代の資料や、Transkribus と TEI を組み合わせた自動人名抽出の手法など、様々なものが紹介されており、さらにデータを可視化する技術の事例紹介もあります。ここで、TEI を適用したことによりどのような方向で研究プロジェクトが発展可能なのか、というヒントを得ることができるでしょう。

第四部は、漢文仏典である大正新脩大藏経を構造化する取り組みであるSAT TEI化研究会による大規模マークアップを前提とした試行とその成果についての紹介です。大正新脩大藏経には様々なタイプのテキストが含まれており、校訂テキストとしての一般的な仏典の構造へのより深い構造化手法についての検討が行われるだけでなく、日本仏教文献や禅籍、仏教音義書等を対象としたマークアップの手法が検討され、その過程で任意の段落設定の手法や外字や割注、知識グラフとしての表現など、様々な課題と解決方法が提示されています。一つの叢書をめぐり、そこに含まれる実に多様な構造への対応のプロセスを読み取ることができる章がちりばめられており、ここでもテキスト構造化に際しての様々なヒントを得ることができるでしょう。

また、本書にはコラムが各所に配されており、実際にマークアップを行うに際しての考え方や、世界各地の TEI 準拠の事例紹介、それに加えて、著作権法改正に基づいて Google Books のようなサイトを作るための基本的な考え方などが紹介されています。それぞれに有益な情報として活用できる局面があるかもしれません。

本書を通じて、多くの読者は物足りなさを感じると思います。それは、テキストの構造化には様々な考え方があり、本書はそのうちのごく一部を扱っているだけに過ぎないからです。むしろ、より広く深い事例を扱う応用編が必要であり、そのような事例自体もより多く必要であることが、本書の刊行によって明らかになるということでもあります。つまり、この本は、あくまでも、ここから続く長い道のりの第一歩として位置づけられるものです。

本書がもたらし得るものは、冒頭に述べたように、TEI ガイドラインを利用したテキストデータの構造化に具体的に取り組めるようになるための入口でしかありません。日本語文化圏でこの入口が整えられたことにより、日本の人文学における多様な取組みやその成果が様々な意味で世界に開かれ、そして未来につながっていくことを期待したいと思います。

[1] http://bungaku-report.com/books/ISBN978-4-909658-84-5.html.

[2] https://readcoop.eu/transkribus/.

※この記事の初出はメールマガジン『人文情報学月報』第132号です。