NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に:

表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。

やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行がそれぞれ拡大表示される」機能が追加された、というものです。(最近はシステムを他の人に作っていただくこともありますが、今回は表示システムの部分は全部自分で作っています)

SAT大蔵経DBはこちらです。

そして、この位置合わせを行うにあたって、NDL古典籍OCRで生成したテキストデータが非常に役立った、ということなのです。

例として、以下のURLで表示可能な経典を用いてみます。

21dzk.l.u-tokyo.ac.jp

先に具体的な使い方をご説明しますと、今回、下記のところに新たにチェックボックスが2つ追加されました。

たとえば、上記のように「宮内庁宋版対応箇所」にチェックを入れてから、大正蔵テキストの気になる箇所をクリックしてみます。 今回は、以下の箇所にて脚注の異読(異文・校異)情報がごちゃごちゃしていてちょっとあやふやな感じなので、「<宮>」が本当はどうなのか、というのを確認しようとしてみます。

ここでは、チェックを入れたのちに「本文を」クリックするのが重要です。脚注ボタンをクリックしても上手く動作しないことがありますのでご注意ください。

本文をクリックすると、新しいウインドウがポップアップして、今回の場合ですと以下のような表示がなされます。

ここでは3つの画面に分かれています。以下の画面に赤字でそれぞれの説明をつけております。

真ん中のOCRテキストと右側の宮内庁宋版一切經画像とは、行単位で対応しており、OCRテキストをクリックするとそれに対応する行に移動して拡大表示されるようになっています。もちろん、画像の方は自由に拡大縮小したりできます。

文字にやたらと黄色いマーカーがついていたり、「🛇」がちょこちょこ入っていたりしますが、それらは、大正蔵テキストとOCRテキストとの異なる部分を表示するために用いられているものです。OCRテキストの誤りが、少ないとは言えちょこちょこありますので、それは追々修正していく予定です。修正機能もこのシステムには組込まれています。…が、まだNDL古典籍OCRのバージョン2を試していないので(現在OCR中ですが大蔵経1件で1週間くらいかかります)、これを試した後にテキストを全面入れ替えするかもしれませんので、修正の方はしばしお待ちください。

また、大正蔵の脚注と付き合わせて確認したい…という場合には、脚注簡易表示の仕組みも用意されています。以下の赤丸(?)で囲んだアイコンをクリックすると、脚注の内容がSAT大蔵経テキストのウインドウの小さなウインドウに表示されるようになります。

なお、この仕組みは、大正蔵の行番号を与えればそれに対応する箇所の各大蔵経画像の画像を拡大表示するようになっていますので、たとえば以下のようにして当該箇所にリンクを張ることもできます。

https://sate.dhii.jp/VIEW/PLS/TID/T0263_.09.0063b29

https://sate.dhii.jp/VIEW/UTK/TID/T0263_.09.0063b29

たったこれだけか…と思われる人もいらっしゃるかもしれませんが、基本的に、これまでは、「巻」まではリンクできていたものの、そこから先は人の目で対応箇所を探さねばならなかったのです。これに結構時間がかかってしまうのです。本来、文献をきちんと読み込もうとするなら、テキストや脚注がなんだかあやしくて誤植かもしれない…という場合、元の資料にきちんとあたるべきで、しかし、画像公開されているとはいえ、該当箇所を探すのに毎回数分~十数分かかってしまうようだと、時間的に大変ですし、度重なれば認知的負荷も相当なものになります。ですので、実際にはかなり専門的に研究しているテキスト以外では、該当箇所を画像で確認しようという気になるのはなかなか難しいことだったのではないかと思います。

しかし、このように、気になる箇所の本文をクリックすれば該当箇所を表示できる、という機能が出てくると、そのような状況は一気に変わっていきますね。元資料に簡単にアクセスできるとなると、論文等の研究成果の精度を上げることへのハードルがより低くなりますね。というか、自分以外の人が簡単に確認してしまうかもしれないことは、自分でも確認しておかないと、通る論文も通らなくなってしまう、というようなことにもなりかねないので、やはり確認せざるを得なくなるだろうとも思います。

ここで、NDL古典籍OCRの必ずしも正確でないテキストが何の役に立っているのか…ということは、ちょっと説明がややこしいのでそれはまた今度にしますが、今回の使い方にはおおよそ十分な精度(ただしテキストによってはあんまりうまくいかない場合もありますが)であり、これなくしては、この「簡単に該当箇所の画像を拡大して確認する」ことはできなかったのです。

というわけで、ますます、国立国会図書館の、特にNDL古典籍OCRを開発してくださった青池さんや、青池さんがこのようにして獅子奮迅の活躍をできる場を作ってくださった国立国会図書館の役職者の方々に感謝するところです。

それから、もちろん、このような貴重な大蔵経画像を公開してくださっている、宮内庁、慶應大学斯道文庫、東大図書館、大蔵経研究推進会議をはじめとする関係者のみなさまにも大変感謝しております。それなくしてはこのような取組みを考えることさえできませんでしたから。

ただし、この機能が使えるのは、宮内庁宋版(宮本)か東大嘉興蔵(明本の刷り違い)が公開されている経典に限られますので、ご注意ください。また、巻単位での位置合わせがうまくできていないテキストも表示されないことがあります。そのあたりはこれから追々修正しておきますのでご容赦ください。

デジタルアーカイブのためのプログラミングレッスン:第7回を追加しました。

デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館のNDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここまでの繰り返しになって恐縮ですが…

バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。

また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。

「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。

なお、以下のリンクはGoogle Colaboratory 上で提供されているレッスンです。最初に、「ドライブにコピーを保存」してから開始してください。

デジタルアーカイブのための初心者向けプログラミングその1

デジタルアーカイブのための初心者向けプログラミングその2

デジタルアーカイブのための初心者向けプログラミングその3

デジタルアーカイブのための初心者向けプログラミングその4

デジタルアーカイブのための初心者向けプログラミングその5

デジタルアーカイブのための初心者向けプログラミングその6

デジタルアーカイブのための初心者向けプログラミングその7

デジタルデータの長期保存:iPRES2022 基調講演の日本語訳が公開されました

デジタルデータはなくなってしまいやすい…という話を時々耳にします。実のところ、紙媒体と同じくらいの手間をかけてよいのであればデジタルデータの持続可能性は十分に高いと思うのですが、そうだとしても、よりよくきちんと長期保存するためには何らかのルールを作っておいた方が安全です。というのは、なくならないけど読めなくなった、とか、読めるけど誰がいつ作ったものかはよくわからない、膨大過ぎてもう何がなんだかわからない…等々、保存しておくだけでは済まない落とし穴が色々あるからです。これも紙媒体と共通する事項が多いので、紙媒体でどうしてきたかということを確認しながら考えるのはとても重要なのですが、やはりデジタルに固有の課題もありますので、紙媒体での事情を踏まえつつデジタル媒体の特性もきちんと押さえた保存のための手続きのようなものがあるとありがたいところです。

そのような課題については、すでにOAIS参照モデルという手続きのためのモデルが制定されていて、ISO 14721:2012として国際標準になったのがもう10年以上前のことです。デジタルデータをアーカイビングしている有力機関ではこれに準拠した保存手続きでデータ保存に取り組むところが増えてきているようです。

しかしながら、参照モデルができればそれでよいのかというとそういうわけではなく、それを具体的な個々のデータや組織に合わせた作業手順に落とし込む必要がありますし、参照モデルがずっと適切なものであり続けるのかどうかはわかりません。そういったことを議論する場があった方が色々有用かと思われます。そこで、それについて議論するための国際的な会議として、iPresという国際会議が毎年開催されています。2022年の第18回大会、iPRES2022は、グラスゴーにあるDigital Preservation Coallitionが主催してハイブリッド形式で開催されました。国立国会図書館のカレントアウェアネス・ポータルにも記事が掲載されていますのでよかったらご覧ください。

ということでだんだん本題に近づいてきましたが、iPRES2022では、3つの基調講演が行われました。これらも含め、大会の模様はYouTube動画として昨年中に公開されていました。今回のこのブログ記事の本題は、ここで動画として公開されている3つの基調講演の日本語訳のテキストがDigital Preservation CoallitionのWebサイト上で公開されたという話です。その概要については翻訳の公開に関する記事をご覧ください。

Web頁のキャプチャ画像

記事にもあるように、この翻訳公開は、「多言語資料の作成は、世界中のデジタル保存コミュニティをサポートする重要な方法であり、私たちの国際化戦略の重要な部分である。」という考え方の下で呼びかけられたものであり、今回は筆者が声をかけていただいたため、若手研究者の方々とともに翻訳をして、先方のWebサイトにて公開をしていただいた次第です。 これらの基調講演では、長期保存の手続き論にとどまらず、そもそも長期保存とはどういうことなのか、どのようになされるべきなのか、という根本的な課題についてそれぞれの立場からの問題提起がなされており、技術的な話というよりはむしろ、方針を定めるにあたって参照・検討すべき話題であり、技術者というよりはむしろ管理者側、あるいは意思決定をする側の方々に読んでいただきたいような話になっております。

以下、タイトルと翻訳者等についてご紹介しておきます。

Video: Amina Shah 'Video Killed the Radio Star: preserving a nation’s memory'

日本語訳テキスト:ラジオスターの悲劇:国家の記憶を保存する https://osf.io/jndum

日本語訳:長野壮一(フランス社会科学高等研究院・博士課程)/校閲:村田祐菜(国立国会図書館)/監修:永崎研宣(一般財団法人人文情報学研究所), 大向一輝(東京大学大学院人文社会系研究科)/協力:渡辺悦子(文部科学省国際統括官付ユネスコ調査官)

Video: Tamar Evangelestia-Dougherty 'Digital Ties That Bind: Effectively Engaging With Communities For Equitable Digital Preservation Ecosystems'

日本語訳テキスト:デジタルな固い絆:公平なデジタル保存のエコシステムのためのコミュニティとの効果的な関わり方 https://osf.io/p4qa7

日本語訳:大月希望(東京大学大学院学際情報学府博士課程)/校閲:村田祐菜(国立国会図書館)/監修:永崎研宣(一般財団法人人文情報学研究所), 大向一輝(東京大学大学院人文社会系研究科)/協力:渡辺悦子(文部科学省国際統括官付ユネスコ調査官)

Video: Steven Gonzalez Monserrate 'After the Cloud: Rethinking Data Ecologies through Anthropology & Speculative Fiction'

日本語訳テキスト:クラウドの未来データエコロジー再考: 人類学と思弁小説を通して https://osf.io/zb654

日本語訳:関慎太朗(東京大学大学院人文社会系研究科博士課程)/校閲:村田祐菜(国立国会図書館)/監修:永崎研宣(一般財団法人人文情報学研究所), 大向一輝(東京大学大学院人文社会系研究科)/協力:渡辺悦子(文部科学省国際統括官付ユネスコ調査官)

デジタルアーカイブにおける長期保存を考える上で、それぞれに大変興味深い話かと思います。翻訳に関わった我々にはもちろんとてもよい刺激になりましたが、みなさまにおかれましても、ぜひご一読いただければと思っております。

AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開

このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。

https://seal.dhii.jp/

構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。

 このツールコレクションの目玉は、18万字の篆字画像を用いたディープラーニングによる篆字画像検索です。篆書で読めない蔵書印を、1文字でも2文字でも、画像で文字検索することで文字単位での確認を支援するものです。文字が確認できたら、そこから今度は蔵書印データベース検索にジャンプすることで、蔵書印そのものの検索もできるようになっています。すでに蔵書印データベースに登録されているものであれば、そこで同じ蔵書印を見つけることができるかもしれません。この使い方に関しては解説動画もありますので、そちらもご覧になるとよいかと思います。

 このツールコレクションでは、篆字画像検索以外にも、篆字の部首検索システムと蔵書印データベース検索システムが組込まれています。この2件は、元々は国文学研究資料館から公開されていたものですが、今月に運用停止となることが決定しており、このツールコレクションに組込む形で継承することになりました。いずれもツールコレクション組込み時に改良が行われていますが、特に蔵書印データベースの検索システムに関しては完全にリニューアルされているので、既存のものとはまた違った使い勝手でお楽しみいただけるのではないかと思います。

 蔵書印データベースの組込みにあたっては、画像の利用許諾等で色々大変だったのですが、それはまた別の機会に、ということで、とりあえずは、新たに九州大学附属図書館の蔵書印データベースのコンテンツが統合されましたので、それも含めてお楽しみいただければと思います。

デジタルアーカイブのためのプログラミングレッスン第一回~第六回

デジタルアーカイブのためのプログラミングレッスン、第六回まで作成しました。ですので、改めて第一回から並べておきます。

NDLサーチのAPIを用いて、IIIF Manifestを操作してサムネイル画像を作成する、というところまでに必要な機能をプログラミング言語Pythonで一通り勉強するものです。

バリバリの研究にすぐに役立つ手法ではないのですが、むしろ、色々さらっと調べてヒントを得たいとか、研究支援的な仕事などには応用できることがあるのではないかと思います。

また、これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。

「こういうことに役立った」というようなことがありましたら、ぜひお知らせいただけますと幸いです。

なお、以下のリンクはGoogle Colaboratory 上で提供されているレッスンです。最初に、「ドライブにコピーを保存」してから開始してください。

デジタルアーカイブのための初心者向けプログラミングその1

デジタルアーカイブのための初心者向けプログラミングその2

デジタルアーカイブのための初心者向けプログラミングその3

デジタルアーカイブのための初心者向けプログラミングその4

デジタルアーカイブのための初心者向けプログラミングその5

デジタルアーカイブのための初心者向けプログラミングその6

デジタルアーカイブのためのプログラミングレッスン第五回

前回のブログ記事の続きです。今度は1回分しかなくて恐縮ですが、自作関数の作成について扱っています。第一回からみていかないとわけがわからないものですが、第一回からやっていくと、課題に必要な要素は一通り組込まれています。ぜひ、第一回から挑戦してみてください。

デジタルアーカイブのための初心者向けプログラミングその5

デジタルアーカイブのためのプログラミングレッスン第一回~第四回

デジタルアーカイブのためのプログラミングレッスン、というのを少し作成してみています。今のところ、第一回~第四回ができております。

デジタルアーカイブに興味を持ったり、関わったりしているものの、内容面だけでなく技術面からも本格的に取り組もうと思って普通に一からプログラミングを勉強しようとすると、何に役立つのかのイメージを持ちにくくてなかなか気が進まない、という経験をお持ちの方は少なくないと思います。 そんな弱まりがちな気持ちをブーストするために、あるいは、かつてやめてしまったことに再挑戦するために、ちょっと直接的に役立ちそうなプログラミングのレッスンと課題を、まさに実践経験の場からご用意いたしました。第四回までいくと、任意のNDLコンテンツをMiradorやIIIF Curation viewerで直接開くリンクを作成できるようになります。

これですべてできるようになるというわけではありませんが、入口として試してみていただいて、そこからプログラミングの基本に立ち返っていただいたり、モチベーションを高めたりするきっかけにしていただけますと幸いです。

教材は、国立国会図書館デジタルコレクションです。主に、検索用のAPIを使わせていただいております。これもなかなか素晴らしいもので、デジタルアーキビストならぜひ使いこなせるようになっておきたいところです。

なお、以下のリンクはGoogle Colaboratory 上で提供されているレッスンです。最初に、「ドライブにコピーを保存」してから開始してください。

デジタルアーカイブのための初心者向けプログラミングその1

デジタルアーカイブのための初心者向けプログラミングその2

デジタルアーカイブのための初心者向けプログラミングその3

デジタルアーカイブのための初心者向けプログラミングその4