くずし字OCR等の動向を踏まえて、研究者の方々に期待すること

いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。

実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいという以外に言葉はないです。何がうらやましいのかというと、くずし字がOCRである程度文字読み取りできるようになったからと言って、そのテキストが前提とする世界観を踏まえて内容をきちんと理解できるようになるわけではないのであって、そこで起きることは、要するに、「入口」が少し広く用意されて、研究者以外の人達、あるいは、これから勉強を始めようという人達の関心を集めやすくなる。つまり、今までだったら全然読めなかったものが、断片的に文字を読み取れるようになることで、関心を集めやすくなる、ということだからです。ちゃんと内容を理解したい、という需要は、文字の読み取りだけでは達成し得ない、より高度な知識や理解を必要とするものであり、研究者の必要性への認知や必要性そのものも高まっていくことが想定されるからです。

どの分野でも、関心を集めるために色々な努力をして知恵を絞っています。最近は、何事も人件費から考えなければならないので予算を取るための工夫も必要です。そのようななかで、頼んでもないのに日本政府やGoogleが膨大な費用と手間をかけてそんな環境を作ってくれて(と言っても、もちろん、一部の研究者の方々は多大な努力をしておられるのですが)、皆が関心を持つための入口が用意されてしまう…というのは、コンテンツの魅力とタイミングのおかげだと言ってしまうこともできるかもしれませんが、やはり、これを奇貨として、今後大きく発展していただき、ついでに周辺分野ともよい協力関係を作っていっていただければ、と思うところです。多くの人は気づいておられると思いますが、別にデジタル・ヒューマニティーズ、デジタル人文学、などと言わずとも、デジタルで資料を使っていると、自然と色々つながってしまうので、周辺他分野との関係が有用になる場面も少なくないだろうと思われますので。