NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に:

表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。

やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行がそれぞれ拡大表示される」機能が追加された、というものです。(最近はシステムを他の人に作っていただくこともありますが、今回は表示システムの部分は全部自分で作っています)

SAT大蔵経DBはこちらです。

そして、この位置合わせを行うにあたって、NDL古典籍OCRで生成したテキストデータが非常に役立った、ということなのです。

例として、以下のURLで表示可能な経典を用いてみます。

21dzk.l.u-tokyo.ac.jp

先に具体的な使い方をご説明しますと、今回、下記のところに新たにチェックボックスが2つ追加されました。

たとえば、上記のように「宮内庁宋版対応箇所」にチェックを入れてから、大正蔵テキストの気になる箇所をクリックしてみます。 今回は、以下の箇所にて脚注の異読(異文・校異)情報がごちゃごちゃしていてちょっとあやふやな感じなので、「<宮>」が本当はどうなのか、というのを確認しようとしてみます。

ここでは、チェックを入れたのちに「本文を」クリックするのが重要です。脚注ボタンをクリックしても上手く動作しないことがありますのでご注意ください。

本文をクリックすると、新しいウインドウがポップアップして、今回の場合ですと以下のような表示がなされます。

ここでは3つの画面に分かれています。以下の画面に赤字でそれぞれの説明をつけております。

真ん中のOCRテキストと右側の宮内庁宋版一切經画像とは、行単位で対応しており、OCRテキストをクリックするとそれに対応する行に移動して拡大表示されるようになっています。もちろん、画像の方は自由に拡大縮小したりできます。

文字にやたらと黄色いマーカーがついていたり、「🛇」がちょこちょこ入っていたりしますが、それらは、大正蔵テキストとOCRテキストとの異なる部分を表示するために用いられているものです。OCRテキストの誤りが、少ないとは言えちょこちょこありますので、それは追々修正していく予定です。修正機能もこのシステムには組込まれています。…が、まだNDL古典籍OCRのバージョン2を試していないので(現在OCR中ですが大蔵経1件で1週間くらいかかります)、これを試した後にテキストを全面入れ替えするかもしれませんので、修正の方はしばしお待ちください。

また、大正蔵の脚注と付き合わせて確認したい…という場合には、脚注簡易表示の仕組みも用意されています。以下の赤丸(?)で囲んだアイコンをクリックすると、脚注の内容がSAT大蔵経テキストのウインドウの小さなウインドウに表示されるようになります。

なお、この仕組みは、大正蔵の行番号を与えればそれに対応する箇所の各大蔵経画像の画像を拡大表示するようになっていますので、たとえば以下のようにして当該箇所にリンクを張ることもできます。

https://sate.dhii.jp/VIEW/PLS/TID/T0263_.09.0063b29

https://sate.dhii.jp/VIEW/UTK/TID/T0263_.09.0063b29

たったこれだけか…と思われる人もいらっしゃるかもしれませんが、基本的に、これまでは、「巻」まではリンクできていたものの、そこから先は人の目で対応箇所を探さねばならなかったのです。これに結構時間がかかってしまうのです。本来、文献をきちんと読み込もうとするなら、テキストや脚注がなんだかあやしくて誤植かもしれない…という場合、元の資料にきちんとあたるべきで、しかし、画像公開されているとはいえ、該当箇所を探すのに毎回数分~十数分かかってしまうようだと、時間的に大変ですし、度重なれば認知的負荷も相当なものになります。ですので、実際にはかなり専門的に研究しているテキスト以外では、該当箇所を画像で確認しようという気になるのはなかなか難しいことだったのではないかと思います。

しかし、このように、気になる箇所の本文をクリックすれば該当箇所を表示できる、という機能が出てくると、そのような状況は一気に変わっていきますね。元資料に簡単にアクセスできるとなると、論文等の研究成果の精度を上げることへのハードルがより低くなりますね。というか、自分以外の人が簡単に確認してしまうかもしれないことは、自分でも確認しておかないと、通る論文も通らなくなってしまう、というようなことにもなりかねないので、やはり確認せざるを得なくなるだろうとも思います。

ここで、NDL古典籍OCRの必ずしも正確でないテキストが何の役に立っているのか…ということは、ちょっと説明がややこしいのでそれはまた今度にしますが、今回の使い方にはおおよそ十分な精度(ただしテキストによってはあんまりうまくいかない場合もありますが)であり、これなくしては、この「簡単に該当箇所の画像を拡大して確認する」ことはできなかったのです。

というわけで、ますます、国立国会図書館の、特にNDL古典籍OCRを開発してくださった青池さんや、青池さんがこのようにして獅子奮迅の活躍をできる場を作ってくださった国立国会図書館の役職者の方々に感謝するところです。

それから、もちろん、このような貴重な大蔵経画像を公開してくださっている、宮内庁、慶應大学斯道文庫、東大図書館、大蔵経研究推進会議をはじめとする関係者のみなさまにも大変感謝しております。それなくしてはこのような取組みを考えることさえできませんでしたから。

ただし、この機能が使えるのは、宮内庁宋版(宮本)か東大嘉興蔵(明本の刷り違い)が公開されている経典に限られますので、ご注意ください。また、巻単位での位置合わせがうまくできていないテキストも表示されないことがあります。そのあたりはこれから追々修正しておきますのでご容赦ください。