【頭の整理】日本での「テキストデータベース」作りのステップ4くらい

テキストデータベース作りに関するメモの続き。

前の記事からくる帰結は、テキストデータの元資料への忠実さや付与される解釈の深さは、以下の2点に依拠するということになる。

・どういう人のどういうニーズを対象とするか

・どれくらいの手間暇時間をかけられるか

この2点を明確に定めたうえでテキストデータを作成すれば、目指すことは概ね実現できるだろう。 ただし、大規模なテキストになると、テキストデータを作成し始める段階では、手間暇時間の見通しを立てるのは難しいことも多い。 そのような場合には、本格的な作業に入る前に、対象となる元資料の典型的な箇所をいくつかサンプル的に取りだして テキストデータ化し、それを通じて全体にかかる手間暇時間を算定するのが穏当なやり方である。

どういう人のどういうニーズを対象とするか、というのは、テキストデータ作成者の立場によって大きく異なる。 対象テキストを自分(達)で研究したい人(達)が作成するのであれば、それらの点は明確にしやすい。 自分達の研究のニーズに沿ったデータを作成すべく、自らの方法論を深めていけばよいということになるから である。それもまた、突き詰めるとなかなか難しいことにはなるものの、目的地点を定めやすく、さらに、 それを追究すること自体が研究発表にもつながり得るため、いわば研究活動の一環として位置づけることも 可能である。

一方、図書館等のサービス提供者としてテキストデータを作成・提供しようという場合、その決定の仕方は やや難しいことになる。むしろ、手間暇時間(もしくは費用)をどれくらいかけられるか、ということが前面に 出てきて、それに応じて対象者やニーズを考える、という順番になることもあるだろう。大規模なところで見てみるなら、 HathiTrustにしても、国立国会図書館の次世代デジタルライブラリーにしても、基本的には、かけられるコストを踏まえて 現在可能なものを作成し提供している。むしろ、利用者側がその有効活用の方法を考える方が 発展的であると言えるだろう。

このような観点から有用なアプローチがあるので紹介しておきたい。人文学テキスト資料のためのXMLに準拠した 記述手法を提示するTEI (Text Encoding Intiative) ガイドラインを定めている TEI協会の図書館分科会が 提供している Best Practices for TEI in Libraries というルールがある。 ここでは、テキストデータへのタグ付け(符号化、encoding)のレベルを以下のように5段階に分けて整理している。

  • Level 1: OCRによって自動生成されたテキストにそのまま自動化可能な範囲でタグ付け
  • Level 2: 最小限のテキストの構造をタグ付け
  • Level 3: 内容に関するごく簡単な整理も含むタグ付け
  • Level 4: 内容に関する基本的な整理・分析を含むタグ付け
  • Level 5: 学術編集のためのタグ付け

このように整理した上で、それぞれのレベルで推奨されるタグ・オプション的なタグも提示している。 このようなルールが公開されている場合、これらのいずれのレベルに準拠したか、ということさえ 明示しておけば、利用者側がどう使えばいいかということを判断しやすくなるだろう。 Level 1 のテキストであれば、利用者は、テキストの文字読み取りからして間違っている かもしれないという前提でテキストデータを扱うことができる。あるいは、Level 3のテキストであれば、 段落や章タイトルなどの基本的な構造がテキストデータに埋め込まれており、それを前提とした 処理ができることになる。そして、前回記事とも関わってくる話だが、 テキストデータ作成の際に準拠したレベルについての情報が、この「Best Practices for TEI in Libraries」とともに示されていれば、 利用者がデータを活用する際に大いに参考になるだろう。 そういったことをテキストデータ内に書き込もうとするなら、TEIガイドラインに準拠した テキストデータの場合には、<teiHeader>の中に書き込み可能な<editorialDecl>というエレメント に書き込むことができる。TEIガイドラインに準拠してテキストデータを作成しておけば、TEIに準拠した様々なツールで活用でき、 有用性を高めることができる点も考慮するとよいだろう。

この件の解は、TEIに準拠するだけでなく、他にも、別のデータモデルを作ってみたり、それをRDFで書いてみたりすることも 可能ではあるので、余裕があれば色々な選択肢について検討してみるという手もあるかもしれない。