【頭の整理】日本での「テキストデータベース」作りの2つ目のステップあたり

前回記事では、「テキストデータベース」作りに関して、その意義とか、テキストデータそのものをどうやって得るか、というようなことをメモしてみた。

今回は、とりあえずテキストデータが入手できたあと、どうすべきか、ということをメモしておきたい。ややもったいをつけて書いているところもあるかもしれないが メモなので気にしないでいいただきたい。

テキストデータ。これが実は非常に難しい。まず、ボーンデジタルなものには生じないが、デジタル以外の媒体に基づくテキストデータにはしばしば大きな問題がある。 それは、「元の媒体上でのテキストと完全に同じではない」ということだ。

すごく細かい話をすれば、字形や文字の大きさは必ず少し異なるはずだ。 このあたりは、まだ内容の相違ということにはならないが、しかし、読み手側が受ける印象には 少し違いが出てくるだろう。たとえば、目が悪い人向けに少し大きな文字にしているかどうか、 あるいは、ディスレクシア向けにユニバーサルデザイン(UD)フォントを使っているかどうか、 ということも、やはり読み手を意識した時にはやや大きな違いとなるだろう。テキストの内容を 分析する場合でも、テキストに対して読み手がどう考えたかということを研究対象とするなら そのあたりも関わってくることがあるかもしれない。もう少し大雑把な話をすれば、石に彫られたものと 紙に印刷されたものとでは受ける印象は大きく異なるだろうが、プレーンなテキストデータには そういった点も特に反映されることはない。

ここから少しスコープを広げると、字体の違いが出てくる。旧字体と新字体を丸めてしまうことは 現在も割とよく行われるようだが、その中には、著者は異なる文字として使い分けた2つの 字体を丸めてしまうとういこともあるかもしれない。できることなら、その使い分けに どういう意味があるかを判断するのは、それを読み分析する側でありたい。しかしながら、 たとえば外注で企業に文字起しを依頼する場合などは、あらかじめJISの第○水準の文字で、 という風に仕様書で限定をかけることになるので、どうしても丸めざるを得ないことになる。

ここまでは漢字の話だが、仮名も丸めたり色々なことをする場合がある。仮名については、 たとえば源氏物語の研究でよく用いられてきたものの一つである『校異源氏物語』では 字母の違う仮名を現代のひらがなに丸めてしまっている。一方で、近年は字母の違いを対象にした 源氏物語研究も行われており、この点は今後大きな課題の一つになっていくかもしれないと 個人的には思っている。

このあたりの、ルールベースでの問題とは別に、単なる誤転記という問題もある。 これは、最終的には人力でチェックするしかないので、正確性を期すなら非常に難しい。 むしろ、「少し間違っていても利用可能なもの」として流通させ利用する方が よいのかもしれない。そもそも、紙媒体でも誤植が混入することはしばしば生じるので あり、デジタルだけの問題でもないということでもあるだろう。

というようなことを踏まえていくと、元資料がデジタル媒体でないテキストデータの 扱いはなかなか一筋縄ではいかないようである。とはいえ、こういった状況に向けた 解決策もちょこちょこあるのでそれは次回にまた書いてみたい。