2024-03-30

歌合絵巻テキスト構造化＆IIIF画像連携の成果が公開されました

この数年、お手伝いをしていたお仕事の一つに、『十番虫合絵巻』（ホノルル美術館所蔵）のデジタル化、という仕事がありました。このコンテンツについてはまったくの素人で、正確な説明はこちらのページをご覧いただきたいのですが、簡単に述べますと、

時は江戸時代、天明２年（1782）８月。隅田川のほとりのお寺、木母寺（もくぼじ）。
元々、当時は、和歌を詠みあって対戦する「歌合」というゲームが流行っていた。
一方で、秋の夕方、鈴虫・松虫などの声を愛でるために御座（ござ）や酒を携えて名所を訪れる「虫聴」も流行っていた。
和歌だけで対戦するのでは飽き足らなくなり、生きた松虫・鈴虫を組込んだジオラマ（州浜、と呼ばれるそうです）も作って展示して、それをテーマにした和歌を詠むことにした／詠もうとする和歌にあわせたジオラマを作って展示することにした
対戦で詠む和歌の元ネタは主に平安時代の作品（＝当時から見ても古いもの。王朝の古典。）

という楽しいことが起きていたそうです。

そして、そのジオラマと、詠まれた和歌、さらには、その評価（判詞）と勝敗までが、巻物に書き込まれたもの、それが『十番虫合絵巻』なのだそうです。

しかし、この絵巻を見ても、絵がきれいなのはいいけど、文字はよくわからないし、文字が読めても内容は古文でわかりにくいし、そもそもそういうことだとどこがなんなのかもよくわからない…

…という、残念な状況がありました。

これを一気に解決してくれるのが、今回ご紹介する虫合絵巻ビューワです。

このビューワでは、上の図のように、現代語訳に加えて英訳まで、対応する箇所をハイライト表示してくれます。これで、「何が書いてあるのか」を現代日本語で読んで知ることができるのです。また、和歌に対応するジオラマも、和歌の横の画像アイコンをクリックすると表示してくれるようになっています。

しかし、これだけだと、文章を理解することはできても、歌合という対戦の構造はなんだかちょっとわかりにくいです。それをわかりやすくしてくれるのが、右側の「和歌」タブです。

ここでずらっとリストされている「一番左歌」「一番右歌」…というのが、本文中の和歌なのですが、このうちのいずれかをクリックすると、その和歌についての対戦情報がずらっと出てきます。

ここでの「左歌」は、詠まれた和歌で、「虫判」はジオラマに対する評価、「歌判」は和歌に対する評価、そして、「歌判勝敗」は、その歌が勝ちであることを書いています。これは古文だからよくわからない…という人は、それぞれのテキストにカーソルをあわせてみましょう。そうすると以下のように…

現代語訳の対応箇所にスクロールしてくれて、ハイライトもされます！英訳も同様に表示されますので、英語圏の人にも同じようにおすすめすることができますね。

そして、「左歌」の隣にある画像アイコンをクリックすると、その歌の対応するジオラマの絵も表示されます。

そして、この画像はIIIF対応で公開されていますので、たとえば以下のような感じで、「虫」がどこにいるのか、拡大して探してみることもできます。

では次に、この会に参加したり歌を詠んだりした人たちはどういう人たちだったんだろう…？と思った時には、「人物」タブをクリックしてみましょう。

今度は、人物のリストが表示されます。各人物の名前をクリックしてみると、その項目が開いて、その人物の詳細情報が表示されます。たとえば、以下のような感じです。

そして、人物情報の下の方に、「参照している箇所」という項目があり、そこにカーソルをあわせると以下のように、その人物が登場する場所にスクロールされます。

と、まあ、このような形で、読みやすく、かつ、虫合という対戦を色々な角度から楽しめるいビューワが公開されたのでした。

このプロジェクトには多くの人が関わり、校訂本文・現代語訳・英訳を作成され、また、テキストはTEIに準拠した歌合向けのマークアップとIIIF画像向けのマークアップが行われ、さらにそのTEI準拠テキストとIIIF画像を連携させつつ同時にうまく表示させるビューワの開発も行われました。詳細はこちらをご覧いただければと思います。

そのようなことで、ぜひこの虫合絵巻ビューワをお試しして、虫合の世界を堪能してみてください。

2024-01-19

ビッグデータ時代の文学研究に何ができるのか？／Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳

3/15（金）、一橋講堂（千代田区一ツ橋）にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておられ、2019年、その成果として「Distant Horizons: Digital Evidence and Literary Change」をシカゴ大学出版局から刊行されました。この本の序文は、大変興味深いものであり、膨大なデジタルテキストをにどのように取り組めばよいのか、そして、それによって、人がただ読むだけではうまく見えてこなかった文学の様々な側面、特に文学史やジャンルがどのようにして見えるようになるのか、ということについて、ラディカルな議論と一つの解決の方向性を提示しておられます。本の全体としてはその具体的な方法も示されていますが、それは本を読んでいただくことにして、ここでは序文の和訳を提示させていただきます。（今回の国際シンポジウム開催にあたり、和訳を公開する許可をいただきました。）といっても、一から全訳するパワーはないので、DeepLで訳したものに手を入れた形になります。一応、一文ずつ確認して必要に応じて修正をしましたが、誤訳などがありましたら当方の力不足ですのでご容赦いただけますと幸いです。（注：橋本健広先生よりいただいた訳の修正を反映しました。2024/1/24）

（この本もどなたか和訳出版してくださるとありがたいですね）

Ted Underwood 『遠い地平線』　序文「文学の地平線の弧」和訳

press.uchicago.edu

これは、文学史における最近の発見についての本である。発見という言葉は奇妙に聞こえるかもしれないが、文学史で重要なのは通常、議論であって発見ではないからだ。失われた写本が屋根裏部屋から発見されることはあるが、新たな証拠を発見することが文学研究の主な目的であることはほとんどない。その代わり、学者たちは過去のよく知られた概説（ロマン派、ヴィクトリア朝、近代）を再解釈し、テクスト同士の新たなつながりを引き出したり、周辺的なものを中心的な舞台へと移動させたりする。

10年前はそう思っていた。この10年間、私は文学の過去の大枠がかつて思っていたほどよく知られているという確信を次第に失ってきた。学者たちが一度に何千冊もの本を読み比べることを学ぶにつれ、教科書には書かれておらず、時代概念でも説明できないような、世紀をまたぐ大まかな傾向を偶然発見するようになった。私たちが文学史を個別の動きや時代の連続として叙述してきたのは、その大きさの塊が、一人の人間が一度に記憶し論じることができる程度の過去の出来事だったからだということが明らかになりつつある。どうやら、もっと長い変化の弧は、そのスケールの大きさによって私たちから隠されてきたようだ。ちょうど、山や政治的な境界線には気づいても、地球の湾曲に気づくことなく大陸を車で横断できるように。地上の一対の目では地平線のカーブを把握することはできないし、一人の読者の記憶に限定された議論では文学史の最大のパターンを明らかにすることはできない。

本書では、そうしたパターンのいくつかを探り、文学研究の新たなアプローチがそれらをどのように可視化しているかを説明する。そして、文学について広範な社会的問題を提起してきた他の多くの学者たちの足跡をたどっている。ここで述べる仕事は、20世紀の書物史、文体論、文学の社会学といったプロジェクトや、フランコ・モレッティが"distant reading "と呼ぶ、これらのプロジェクトの融合に負うところがある。学問的な系譜をたどることよりも、過去300年にわたる英文学の地図を塗り替えつつある具体的な発見について述べることに重きを置きたい。最初の4章は、それぞれ異なる歴史的発見-文学の言語、ジャンル、美的判断、ジェンダーの歴史-を中心に構成されている。

本書はまた、大規模な研究に必要な新しい方法について説明し、多くの人々が文学にコンピュータを応用することに感じている不安についても論じている。しかし私は、批評的伝統と "デジタル人文学 "と呼ばれる新たな技術的イニシアチブを対立させる闘争という、一般的な枠組みで語られるような問題にはアプローチしない。このような枠組みは、いくつかの理由から人気がある。それは、デジタル・コンピュータを現代の歴史における変革の主役と見なすおなじみの物語や、機械と文化との対立をめぐって組織されたさらに古い物語に合致しているからである。その種の使い古された物語には、馴染みのある一群の道徳的座標軸が付属しているため、観察者は変化そのものを詳しく研究することなく、「デジタル」というラベルを貼られた変化について意見を述べることが容易になる。

これは不運なことだ。というのも、大きな歴史的パターンを目に見えるものにした進歩は、コンピュータというよりも、モデリングや解釈に関する新しい考え方と関係があるからだ。結局のところ、コンピュータ自体はそれほど新しいものではなく、学者たちは50年以上前から文学の言語にコンピュータを応用してきた。文学史への新しいアプローチに必要なものがデジタル技術だけであったなら、本書はとっくに登場していただろう。しかし1970年代には、コンピュータを文学に応用しようとすると、文の長さやジョナサン・スウィフトの好きな言葉についての議論がしばしば生じていた。ほとんどの学者は、そうした言語的な細部を正確に測定するコンピュータの能力が、それ自体で文学的快楽の歴史を一変させることになるとは考えていなかった。私が思うに、彼らが疑念を抱くのは正しかった。スタンリー・フィッシュが指摘したように、スウィフトが接続語を多用していることを証明することと、その孤立した事実に文学的解釈を与えることは別のことなのだ。

では、この50年間で何が変わったのか？確かに、規模はその一部である。1980年代までは、文学史の量的探求は比較的小規模なコレクションに基づく傾向があり、多くの場合、個々の作家に焦点が当てられていた。デジタル・ライブラリーの拡大により、幅広い歴史的問題を提起することが容易になり、歴史的な広がりが量的探求により優れた社会的基盤を与えている。(例えば本書は、とりわけハティトラスト・デジタル・ライブラリーに深く依存している）。しかし、規模の大きさは物語の一部に過ぎない。地平線のカーブは地球から少し離れた上空でしか見えないからだ。しかし、視野が広いだけでは、言語的な細部に文学的な意味を与えるには十分ではない。

数字が文学研究に役立つようになってきたのは、技術的な理由よりもむしろ理論的な理由による。コンピュータが速くなったとか、ディスクが大きくなったとかいうことではなく、私たちは最近、変数の数を数えることから文学的概念のモデルを構築することへと進んだのである。モデルとは変数間の関係を定義するものであるため、モデルを基礎とした探究様式は、孤立した事実ではなく、関係を研究することができる。量的文学研究は、例えば接続語の頻度から始めるのではなく、観客、ジャンル、キャラクター、ジェンダーなど、文学の読者が実際に関心を持つ事柄に関する社会的証拠から始めるようになった。それらの現象の文学的意味は、歴史的に根拠のある解釈の共同体からもたらされる。数字が登場するのは、歴史の外のどこかにある客観的な意味の基礎としてではなく、歴史的記録の異なる部分の間の比較関係を確立する方法として、である。

これは大雑把なスケッチであることは認めざるを得ない。モデルという言葉自体、文学研究ではまだ一般的ではないので、第1章では、文学的概念の統計的モデル（特に「予測モデル」）を構築することの意味を説明することに時間を割く。始めに述べておきたいのは、本書を可能にした進歩のほとんどが、計算能力の問題ではないということである。その代わりに、統計学から心理学に至るまで、現在分野を大きく変えつつあるモデル化、学習、解釈に関する議論に依存している。読者に最近の知的歴史における重要な展開を垣間見てもらうため、本書全体を通してこの議論に触れ、付録の「方法論」でさらに詳しく調査するつもりである。しかし結局のところ、本書は英文学史、とりわけ英米文学者に焦点を当てた本なのである。新しい方法を強調するのではなく、それが可能にする具体的な文学的洞察に焦点を当てる。各章は歴史的な議論として構成される。

第1章では、18世紀、19世紀、20世紀のフィクションにおけるよく知られた変化の多くが、ノンフィクションとの対立を通じてフィクションの主題、スタイル、ペースを決定づけた、ひとつの差別化プロセスの一部として理解できることを示唆している。私たちはこの物語の一部についてすでに知っている。18世紀フィクションの研究者たちは、見せかけの自伝の終焉について論じ、19世紀の研究者たちは、視覚的ディテールの強調について語り、モダニズムの研究者たちは、全知の語り手の衰退について論じてきた。時折、もっと物議を醸すのは、こうした変化のいくつかを、"語る "から "見せる "への広範な転換という旗印のもとに統一することができるのではないか、と指摘する批評家である。しかし、統一されたストーリーに説得力を持たせるのは難しい：例えば、ヴィクトリア朝の人々やポストモダニストは、非人間的で限定的な語り手の台頭というモダニズムの勝利主義に並ぶことを拒むかもしれない。量的証拠によって可能になった広い視野によって、これらの変化をすべて、長い分化の過程の段階として見ることができるようになった。さまざまな芸術運動は、しばしば互いに対立し、ときに「普通の言葉」との和解を求めたと言われるが、実際にはすべて、フィクションをノンフィクションの言葉、テーマ、物語戦略から遠ざけてきた。

もちろん、「フィクション」はかなり広範なジャンルであり、文学者はゴシックや探偵小説のようなサブジャンルの歴史に関心を持つのが一般的である。第2章では、こうした概念を掘り下げ、新しい方法がジャンルへの視点的アプローチをどのようにサポートできるかを説明する。自然な文学の種類としてのジャンルというアリストテレス的な概念は、過去50年の間に、ジャンルを歴史的に偶発的な制度として扱う、より慎重なアプローチへと道を譲った。批評家たちは、SFに安定した定義を与えようとする代わりに、SFとはつまるところ、さまざまな歴史的主体が "SF "と呼んできた作品の緩やかなグループ分けに過ぎない、と提唱するようになっている。このことは、SFが時代によって異なる意味を持っていた可能性を示唆し、1920年代以前のSFについて語りたい批評家を、厄介な立場に追いやる。というのも、それらの文学的伝統のどれもが、元々の読者達にはSFと呼ばれていなかったからである。

時代とともに意味を変える人間の創造物はジャンルだけではない。ジャンル史に立ちはだかる解釈上の問題は、歴史そのものの視点的次元に根ざしたものであり、きれいに解決するにはあまりに深い。SFのような用語の意味は、常に観察者の立ち位置に依存する。しかし、本書の中心的な主張のひとつは、現代の量的手法が視点の問題を表現するのに非常に適しており、歴史のその次元を活用することができるということである。

遠近法の問題は、私たちが数学に出会うことを期待する最後の場所かもしれない。20世紀には、数字は主に物理的な測定（または人口統計学的なカウント）に使われ、観察者によって大きく異なることはなかった。このような連想から、アラビア数字はそれ自体が客観的であり、社会的文脈から独立したものであるかのような印象を多くの人々に与えてきた。しかし、現代の量的手法を改めて見直してみると、客観性への志向によって区別されていないことに気づくかもしれない。特に機械学習は、主観的な文脈に敏感すぎる傾向があるため、世間を騒がせている。

学者が明示的に概念を定義すれば、中立性を目指す定義を作ることができる。しかし、機械学習が作り出すモデルは、明確な定義に頼るのではなく、その代わりに、概念をもっぱら例示的な事例から学習する。例から学習することで、機械学習は柔軟性を持つが、同時に特定の証拠の選択に潜む仮定や偏見を拾い上げやすい。このことは、中立的な裁定者であることを期待されている機関にとっては大きな問題となっている。信用力に関する銀行の判断が、性別や人種に関する思い込みによって形作られることは避けたい。しかし、承認されたローンや却下されたローンの事例から信用力を学習するモデルは、そのローンを承認したり却下したりした人のバイアスを吸収してしまう可能性が非常に高い。不偏不党を目指す金融機関は、機械学習を避けることを選ぶかもしれない。一方、過去について推論する場合、私たちの目的は通常、バイアスを認識し探求することであり、バイアスを消し去ることではない。例えば、文学作品の特定の選択に暗黙的に含まれている主観的嗜好を理解することは、まさに私たちの研究の目標かもしれない。この種のプロジェクトにとって、機械学習が学習対象の証拠に潜在する仮定を吸収する傾向があることは、問題ではなく、プラスの利点である。さまざまな人が選んだ証拠でモデルを学習させることで、さまざまな社会的視点を結晶化させ、互いに厳密に比較することができる。

私が「視点のモデリング」と呼ぶこのアプローチは、ここ数年で具体化したものである。機械学習の他の使い方に慣れている読者は、いくつかの仮定を脇に置いておく必要があるかもしれない。本書で作成されるモデルは教師ありモデルである。つまり、常に人間の読者によってラベル付けされた証拠から出発する。しかし、匿名のテキストの真の作者を見抜こうとする教師ありモデルとは異なり、視点モデルは単に人間の判断を再現することを目的としていない。その代わりに、異なる観察者間の視差を測定するために使用される。

この戦略は、この後のページで多くの応用が利くだろう。たとえば第2章では、ジャンルの歴史についての疑問を投げかけるためにこの方法を用いる。場合によっては、異なる時代の観察者によって定義されたジャンルは、その名前から想像されるよりもうまく一致することが判明する。19世紀の「科学的ロマンス」を研究したモデルは、現代の「サイエンス・フィクション」を同じものとして認識することが容易である。たとえば、読者が「ゴシック」と呼ぶさまざまな伝統は、単一のモデルではうまく認識できない。このような証拠は、歴史家がひとくくりにしたり分割したりする不毛な議論を超えて、さまざまな曖昧さの度合いを持つ境界を認める、より柔軟な議論へと向かう助けとなるだろう。

第3章では、形式とジャンルの問題が、文学の生産と流通のより厳しい側面とどのように交錯しているかの説明で始まる。これにはテクストの書庫に社会的文脈を取り入れて価値を高める必要がある。たとえば、どの作品が商業的に成功したのか、あるいは批評家のお気に入りになったのかを知るためである。その証拠によって、学者たちは文学の流行が市場からの圧力や批評家の判断パターンの変化とどのように関係していたかを問うことができる。この調査によって、文学の隆盛を定義する基準が、長い期間にわたる変化の方向性と強く一致するという、驚くほど規則的なパターンが明らかになる。文学史の弧は長いが、（いわば）名声に向かって曲がっている。この時点で、私たちはもはや、見慣れた歴史の説明を、より長い視点でとらえるために単純にもう一度繰り返して変容させているのではない。美的判断の基準が何世紀にもわたって比較的安定したままであり、同じように長い時間軸の中で文学の変化を形作ってきたとすれば、私たちは、教科書や論文集で語られる急速な世代逆転の物語とは基本的に相反する文学史の説明を見ていることになる。

本書の最初の3章は、書物がほとんどの場合全体として議論されうる文学史の次元（受容やジャンルなど）について述べている。プロットやキャラクターのようなトピックは、長い時間軸を横断して追跡するのが難しい。なぜなら、アルゴリズム的に解明するのが困難な、書物のレベル以下の区分が必要だからである。しかし、コンピュータ科学者の協力があれば、これらのトピックをある程度進展させることも可能である。第4章では、特に、フィクションのキャラクターがジェンダーに関する暗黙の仮定によって形成される方法について、キャラクター設定の歴史を探る。繰り返しになるが、視点モデルは私の議論に決定的な力を与えてくれる。例えば、キャラクターの性格付けがどれほど強くジェンダー化されてきたかを問う一つの方法は、テクストの中で行われるものとして女性や男性が表現される事物のみを使って、フィクション上の女性を男性から区別するのがどれほど容易かを問うことである。ファーストネームや代名詞を外した場合であっても、モデルはキャラクターの文法上の性別を予測できるだろうか？もしそうなら、ジェンダーに対する見方は時代によってどのように異なるのだろうか？デビッド・バンマンが構築したツールを一部使用することで、1840年から現在に至るまで、キャラクターの暗黙の性別設定が着実に曖昧になっていることを示すことができた。もちろん、より興味深いのは、性別を示す具体的なディテールである。それは常に明白ではない。20世紀の中頃になると、突然、微笑むのは女性的だが、ニヤリと笑うのは男性的になる。おそらく最も興味深いのは、キャラクターの性別を予測する細部は極めて不安定であることが判明することだ。フィクションにおける性別は、1840年当時と今日では同じものではない。その過程で、作家の社会史におけるいくつかの直感に反する傾向につまずくことになる。特に、1850年から1970年の間に、女性によって書かれた英語小説の割合が50％減少していることが挙げられる。

私が上で概説した文学史へのアプローチは、控えめに言っても議論の余地がある。文学的な議論では通常、数字は用いられないし、人文学において数字が重要な役割を果たすことができるのか、多くの学者は疑問視している。本書の第5章では、こうした懸念に深く応答する。この論争を巻末に回したのは、この論争を、第一原理を唱えればあらかじめ決着がつくような、対立する哲学間の闘争だとは考えていないからである。大規模な量的研究の価値に対する疑念は、過去に対する新たな視点の本質的な面白さに対する疑念であり、そして、新たな視点が面白いかどうかは、それを探求してみなければわからないのである。本書の最後に、新たな記述の尺度を探求した後、私はその固有の面白さと、人文学者が視野を広げるために支払わなければならないかもしれない代償とを比較検討する。

確かに、すべての知識には対価が必要だ。しかし、この場合、その代償は哲学的というよりも制度的なものである。我々が見ているのは、構造主義とポスト構造主義の闘争のように、ある視点を捨てて別の視点を採用しなければならないような議論ではない。distant readingは、単なる新たな記述の尺度であって、手の解剖図が細胞内で起こっている化学反応と対立しないのと同じように、精読(close reading)と対立するものではない。これまでの文学的描写の尺度を置き換えるのではなく、distant readingは学問分野を拡大する可能性を秘めたものである。どちらかといえば、生化学が化学をより大規模な分析に広げたように。しかし、拡大にコストがかかることは否めない。新しい種類の鍛錬は学者の仕事を増やし、文学部の性格を変えてしまうかもしれない。そこで第5章では、人文学における量的研究に必要な気質と鍛錬について考察し、第1章から第4章までに展開された新しい視点が、関連する代償を払うに値するかどうかを読者に判断してもらうことにする。

しかし、コストと便益を天秤にかけることは、長い時間軸から見えてくるものをしてはじめて可能となる。序文で私ができることは、読者が最初に恐れるかもしれないいくつかの誤解を解くことである。特に、本書を開いてグラフを見た瞬間に、ある懸念が頭に浮かぶかもしれない。それは、量的手法は客観的な知識を生み出すために、人文学の解釈的な側面を取り除こうとしている、というものだ。この考え方は、人文学者と科学者の間のコミュニケーションの失敗から生まれたものだと私は考えている。長い話を短くまとめると、本質的には数字は言葉よりも客観的というわけではない。数字は、程度の問題を推論するために人間が作り出した記号に過ぎない。過去に関する他の議論と同様、統計モデルも証拠の暫定的な解釈である。モデルを数学的に表現することは、いくつかの仮定（特に量と程度に関する仮定を含む）を明示するという利点がある。しかし、数字には疑問を解決する特別な力はない。仮定や推論は依然として、慣れ親しんだ議論のプロセスを通じて打ち出されなければならない。さらに文学史においては、研究者はしばしば主観的な信念そのものである世界の側面をモデル化するために統計を用いることになる。例えば、ジャンルを探求する際、私は「1973年当時の特定の観察者グループが、これを探偵小説の一例だと考えた確率」のような変数をモデル化した。

言い換えれば、文学への量的アプローチは、文学史がマルクス主義やダーウィンの論理に支配されているという信念を前提とする必要はない。本書は、長い時間軸に渡る変化のパターンをスケッチする一方で、文学史が馴染み深い主流の物語によって説明できるという仮定には、基本的に抵抗する。本書の第1章は、二つの物語の詳細を探るという、文学の読者が多くの場合に始めるところから開始される。しかし、そうしているうちに、それらの細部は、他の多くの書物にも共通する、より大きなパターンへと整理されていく。そして、それらのパターンを理解しようとして、モデルと呼ばれる一般化を形成し始める。それらのモデルは、学者たちがこれまで説明できなかった大きなパターンを明らかにする。しかし、視点の違いや議論がなくなるわけではない。量的モデルは、他のどの歴史解釈よりも客観的なものというわけではない。それは、人類の過去の謎に取り組むためのもう一つの方法に過ぎず、より広い視野に立つために後退しても、複雑さや不可解さが軽減されるわけではない。

私が冒頭で取り上げたい2つ目の誤解は、フランコ・モレッティが約19年前に提唱したdistant readingの極論的な定義に関わるものである。私がdistant readingという言葉を採用したのは、それが適切であったからであり、また、過去の看板をかけかえることによって過去を否定し、同時にそれを正当化しようとする学問的傾向を警戒しているからである（distant readingがナイーブであったことは誰もが知っているが、私は批判的distant readingを発明した。それはまったくの別物である。）終わりのない看板のかけかえはうんざりする。しかし、2019年、distant readingを評価する方法は、増えつつある研究者コミュニティによって最近生み出された結果を見ることであり、フランコ・モレッティが2000年に提唱したこのプロジェクトの思索的な根拠をめぐって論争を繰り広げることではない、と言う必要がある。

社会科学的手法とデジタルテキストを用いて文学の過去を探求することを提案した学者は、モレッティが初めてではない。コーパス言語学、社会学、書物史の影響を受けた同様のプロジェクトは、1980年代から1990年代にかけてすでに進行していた。今世紀に入り、大規模な研究をサポートする一連の社会的・概念的革新（例えばデジタルライブラリーや機械学習）に後押しされ、このプロジェクトは劇的に加速した。しかし、2000年当時、ほとんどの文学研究者にはこれらの要素はほとんど見えていなかった。それどころか、distant readingは当初、1990年代の古典を拡張し復興するプロジェクトの延長として理解されていた。そのため、この事業は、学者たちの注意を引くための道徳的な主張となった。もしあなたがdistant readingをしないなら、「文学の屠殺場」に忘れ去られた何千冊もの本の叫びを無視していることになる。

19年経った今でも、大規模な文学史プロジェクトは鮮明で適切であるという理由でしばしばdistant readingと呼ばれる。しかし、このプロジェクトは、当初その名前に付随していた極論から脱却した。例えば、モレッティが回復の道義的緊急性を強調したことで、多くの懐疑論者は、デジタルライブラリー自体がいまだに、失われた、あるいは単にデジタル化されていない多くの蔵書を除外していると反論した。どんなに大規模なコレクションであっても、すべての作品を屠殺場から救うことはできない。これは事実である。また、通常、明確に限定されたサンプルを使っている現代のdistant readingに対する異論でもない。distant readingのポイントは、出版されたすべての作品の完全なアーカイブを回収することではなく、異なる時代や社会的文脈から引き出されたサンプル間の違いを理解することにある。

この他にも多くの点で、distant readingの担い手たちとその批評家たちは、しばしば互いを通り過ぎて話をしているに過ぎない。文学史への量的なアプローチは非常に生産的であったが、それらが生み出した結果は、最も悪名高いマニフェストが予測した結果ではない。例えば、古典と屠殺場の違いは、それほど大きくないことが判明している。著名な作家も無名の作家も、ほぼ同じ方向に進んでいることが多い。しかし、その分析範囲を拡大することで、distant readingの担い手たちは長い歴史的な弧につまずき、古典と無名作家の両グループについて私たちが知っていると思っていたことを変えてしまう。

今こそ、この会話に再び焦点を当てる時である。distant readingの担い手たちには、批評家たちが20年前に約束したことよりももっと興味深い、彼らが実際に行ったことへの反応を促すような、新しいマニフェストが必要なのだ。本書は、いくつかの可能な方法のひとつで、単なるアーカイブの網羅性から長いタイムラインの広がりへと重点を移すことで、会話の焦点を再定義する。

当然のことながら、これから述べる方法には限界がある。新しくて面白いからといっても、文学研究の隅々にまで数字を押し込むのは誤りである。一つの作品の良さを繊細に表現したい批評家にとっては、大抵の場合、統計は必要ない。コンピュータやまことしやかな写真に熱中するあまり、例えばキャラクターのつながりを詳細に記したネットワークグラフによって一冊の本の理解にどれだけのことが付け加えられるかを、観察者たちは誇張してしまうことがある。テキストをコンピュータで分析することは、以前よりは柔軟になったが、人間の読解に比べればまだまだ粗雑である。主に役立つのは、証拠が大きすぎて一人の読者の記憶に収まらないような問題である。量的手法が特に長い期間の理解に貢献してきたのは、このような理由による。

一方、文学史の本は、地上3万フィートの上空ですべての時間を過ごすことはできない。文学は個性的なキャラクターと共鳴するディテールによって読者の心をつかむものであり、文学史にも同じことが必要である。現代の文学史には特にこのことがあてはまる。第1章と第3章で説明するように、具体的な特異性はこの300年の間に詩や小説にとって着実に重要性を増し、現在では文学ジャンルとノンフィクションを分ける主な文体の違いを構成している。大雑把な一般化に終始するような現代文学史では、その主題の重要な側面を伝えることができないだろう。そこで本書は、非常に広い歴史的視野を持ちつつも、個々の作家の事例研究や選択された箇所の精読にも踏み込んでいる。

このような尺度の並置によって生み出される修辞学的、美学的なひずみが、distant readingへの真の挑戦となる。量的な推論と人文主義的な解釈の間には、原理的には矛盾はないかもしれない。しかし、文学の学問が、科学において一般的な基準よりも厳しい美的基準を目指していることは事実である。それにもかかわらず、幅広い読者が興味を抱くのに十分詳細で、十分合理的で、十分生き生きとした量的文学史を、distant readingの担い手たちは描き出すことができるだろうか。もしできなければ、どんな議論も私たちを救うことはできないだろう。私たちのやっていることは重要かもしれないが、それは社会科学に属することになるだろう。私は数字が人文学にもなじむことを示したい。しかし、それを事前に証明することはできない。私にできるのは、統計モデルを使って幅広く人々の関心を引くサスペンスに満ちた物語を語る本を書くことによって、それを描き出そうとすることだけである。

2024-01-16

それでも高度なデジタルアーカイブを提供したい時は：「一次公開」「二次公開」とIIIF

IIIF応用 IIIF環境準備デジタルアーカイブ IIIF デジタル人文学

以下の、前回記事の続きです。

digitalnagasaki.hatenablog.com

こちらの記事では、新しいことや難しいことをすると大変だ、という話ばかり書きましたので、がっかりした人もおられるかもしれません。たしかに、良コンテンツを持っているところでなければ高度なデジタルアーカイブの提供はできませんし、単体では良コンテンツとは言えないものでもある程度の規模で集約することによって価値を高めることができるのはよくあることです…というのは、IIIF (International Image Interoperability Framework) 登場以前の話でした。今はそう考える必要がありません。

IIIFの枠組みでは、このルールに従って公開された画像は、この枠組みに準拠したより良いツールが登場したら、そのツールに切り替えることができます。それは、デジタルアーカイブ提供者だけでなく、利用者の側でIIIFに準拠した好きなツールを使用することができます。ですので、提供者側ではできなくても、利用者側でより高度な利用方法を試すことができます。たとえば、IIIF Curation Platform はその典型的な例です。この場合、IIIF manifestのURIをこのプラットフォームに読み込ませれば、このサイト上で画像を部分的に切り出して集めたり、メタデータを新たに追加したりできます。さらに、このプラットフォームを自分のサイトにインストールすれば、自分のサイト上でそのように工夫したデジタルアーカイブを再利用的に公開することもできます。もちろん、公開元デジタルアーカイブをいじるわけではありませんので、あくまでも、これを利用している人の責任で行われることになります。

「できること」を端的に示すとこういう話になってしまいますので、自分のところのデジタルアーカイブ構築の功績ではなくなってしまうのか…と思われる人もいらっしゃるかもしれませんが、そうではありません。重要なのは、「一次公開」と「二次公開」を分離できることなのです。つまり、前回記事で書いたような手堅く安定したデジタルアーカイブの構築は「一次公開」としてきちんとやっておきつつ、余力があれば「二次公開」として、自分のところで公開したIIIF対応デジタルアーカイブを対象としたサービスを展開すればよいのです。そうすると、「二次公開」の部分は持続可能性をあまり強く保証できないとしても、むしろ期間限定サービスのような位置づけで提供することもできます。いずれにしてもデジタルアーカイブは5～8年くらいで入れ替えをしなければなりませんので、次の入れ替えまでは提供できるサービスという位置づけで提供することで、ユーザへ与える混乱もかなり減らせるでしょう。デジタルアーカイブは、安定的にコンテンツを提供することが望ましいので、「一次公開」と「二次公開」を分けて考えて構築・運用することが、ユーザへの利便性を高めつつデジタルアーカイブ構築側のサービス精神も発揮できる一つの出口になるのではないかと思います。

そして、「二次公開」部分でデジタルアーカイブに独自の機能を追加しようとする場合にも、そうしたツールを組み合わせて提供することもできます。さらに、独自機能提供のために独自にツールやソフトウェアを開発するにしても、技術仕様がオープンになっており、かつ、Webエンジニアに理解しやすいフォーマットになっていますので、開発コストをかなり下げることができます。「自分で内製するぞ！」という場合にも、既存の色々なWeb向けツールを利用できますし、ドキュメントも比較的豊富ですので、かなり取り組みやすいでしょう。

あるいはまた、こうなってくると、デジタルアーカイブを構築・公開した後に外部により深いメタデータ構築を手伝ってもらうという方向性も出てきます。たとえば、京都大学貴重資料デジタルアーカイブがIIIF対応で公開した仏典資料を、仏典研究者のグループが自サイトで公開するためにメタデータを増やしてから再公開し、さらにそのメタデータを京都大学図書館側に戻して、京大図書館がそのメタデータを取り込む、といったことも行われたことがあります。以下のURLにてそのときのことが簡単に紹介されています。

current.ndl.go.jp

このように見て来ると、IIIF、というより、デジタルアーカイブにおいて画像公開の仕方を技術的に共通化することは、非常に大きな意義があることがわかります。実はIIIF以前にも色々な技術が開発され提供されてきましたが、「みんなが採用する」には至りませんでした。IIIFは、最初から世界の有力な巨大図書館が採用することを前提として国際的な協力関係の下で始まったため、現在のように広く採用されることになりました。独自のものを追求したい方々におかれては、よくわからない海外の人達が決めたものに準拠しろ、ルールを守れ、と言われると面白くないと思うこともあるかもしれませんが、これに準拠することで、上記の「二次公開」のような形で、独自のものを作りたければより効率的に構築・開発ができるようになりますし、さらに、自分のところのコンテンツが世界中のコンテンツと協調して新たな価値を生み出せる可能性が出てくる、ということになりますので、そのあたりを踏まえて、IIIFへの準拠をご検討いただけますと、一利用者としてもありがたいところです。

2024-01-15

「デジタルアーカイブ」構築のロジと専門知識

IIIF デジタル人文学 IIIF環境準備デジタルアーカイブ

いわゆる「デジタルアーカイブ」があちこちで構築されるようになってずいぶん経ちます。ジャパンサーチが登場したことで、とりあえず構築した後にメタデータを提供すれば、利用者に発見してもらえる可能性も高まってきました。これからますますデジタルアーカイブは増えていくことだろうと期待するところです。

そのようななかで、日頃色々な方々からこの種の事柄についてのご相談をいただき、仕事を増やし過ぎてお返事もなかなかできない状況なので申し訳ないと思っているのですが、ここしばらく、多くの相談に共通することがあるように思って来ましたので、少しその点についてまとめて当方の考え、というか、やっているとそうならざるを得ない…ということについて少し述べておきたいと思います。テーマは、表題のとおり、「「デジタルアーカイブ」構築のロジと専門知識」です。

よりよいデジタルアーカイブを構築したいと思うと、詳しい目録情報が欲しいとか、既存の本の目録と対応づけた形で公開したいとか、古典籍古文書だったりするとテキストデータが欲しい、等々、色々な可能性を思いつく人もいらっしゃるでしょう。また、画像を超高精細で撮影したいとか、部分的にアノテーションをつけたいとか、完全平面画像がいい、3Dにしたい、等々、技術面でも色々な可能性を考えることがあるでしょう。もちろん、便利な情報や機能があればあるほど利便性は高まり、利用してもらえる可能性も高まります。

一方で、そういう要望を目にしたり耳にしたりすると、そんな手間暇はかけられない、という話をする人も多いかと思います。実際の所、人手をかけることは予算をかけることとほぼ同義ですので、つまり予算がない、ということは多くの現場に共通することかと思います。このあたりのことをどう考えればいいのか、ということについて、すでにわかっている人も多いと思うのですが、念のため書いておきたいというのが今回の趣旨です。

基本的に、デジタルアーカイブをよいものにするためには、「内容を深める」「技術的に高度化する」という二つの方向性があります。もちろん、両方をミックスすることでよりよくすることも可能ですが、まずは片方ずつみていきましょう。

「内容を深める」

「内容を深める」というのは、上述のように、具体的には色々ありますが、つまり、内容に関する専門知識に関わる情報を増やすということになります。これには、内容について専門知識を有する人を動員する必要があります。これにも深さに応じて対応できる人のタイプは変わりますので、そこで扱われる資料を長年研究している専門家から、資料の出納をするだけの仕事をする人まで、色々な人を想定した上で検討する必要があります。

基本的に、「専門家」は数が少ないので、かけられる時間としても費用としても、専門家に依頼する必要があるような事項であれば、大きなコストを見込んでおく必要がでてきます。費用をまったく考慮しなくてよいのであれば「当該資料の専門家」を雇用してしまうのが一番です。ただ、その「専門家」に、せっかく雇ったのだからと他の仕事も色々やってもらう形になってしまうと、この仕事に割ける時間が減っていって内容をあまり深められなくなってしまう、ということになりますので、その点も注意が必要です。ただ、実際のところ、そんなことができる機関はほとんどありませんので、普通は既存の人材に頑張ってもらうことになります。

既存の人材ということであれば、やはり当該資料の専門家がいる場合もあれば、資料の出納以上のことには手を出さないところもあります。たまに、「自分のところが持っている資料なのだから時間外で勉強して当該資料の専門知識を身につけるべきだ」という人がおられますが、世はワークライフバランスの時代ですので、採用時点でそういう知識を持っていることを前提としたポストでない場合、業務としてそういうことに取り組んでもらうのは基本的にかなり難しいでしょう。あるいは、研修の一環として、社会人大学院生としてどこかの修士課程で2，3年勉強してきてもらうのもありかもしれません。

さて、そのようなことですので、既存の人材がどれくらいの手間をかけてどれくらいのことをできるのか、ということを見極めることがまずは重要になります。ここでもう一つ気をつけねばならない落とし穴があります。それは、「今の担当者が別の人に交代しても可能なのかどうか」という点です。時々、業務時間外でもOK、サービス残業上等、空き時間は仕事も勉強もどんとこい、とにかくできることはなんでもやって自分の組織の評価を高めます、という奇特な人がおられます。（ちなみに、昭和生まれの研究者はそういう感じの人が大変多いように感じておりますが、デジタルアーカイブ構築に関わる場合には、そういう考え方をいったん離れた方がよいことをよく認識してください。）その人がそのポストにいる間はどんどん進めれば良いのですが、その人は、多くの場合、数年以内に人事異動でどこかに行ってしまいます。仮に、次も似たような人材が来るとしても、しばらくは引継ぎや新しい業務の習得などであんまり動けなくなりますし、常にそういう人材が配置されるとは限りません。（私が言っても説得力が無いのですが）普通は、ワークライフバランスを重視するものであり、人間社会はよく働きよく休むことによって回っていくものです。ということで、人が交代する職場の場合には、定められた職掌の範囲で対応できることを意識しながら、「何をどこまで深めるか」を検討する必要があります。そもそも、貴重な資料になると、きちんと保存して出納するだけでも結構大変です。それにまつわる色々な業務もこなした上で、デジタルアーカイブの内容を深める仕事にどこまで関与できるのか、関連する組織の状況をよく踏まえた上で検討する必要があります。

「技術的に高度化する」

「技術的に高度化する」方向に関しては、かつては色々独自のシステムを構築したりIT企業の高価で互換性のないシステムに大金を支払わなければならなかったりしてなかなか大変でしたが、近年はIIIF (International Image Interoperability Framework)の普及により、あるレベルまでは簡単に構築したり発注したりできるようになりました。画像を拡大縮小しながら閲覧して、メタデータを検索して検索結果を表示する、くらいのことであれば、かなり容易にできるようになってきました。システムの高度化に関しても、IIIF対応で構築・公開すれば、IIIF Curation Platformを利用して注釈をつけたり、みんなで翻刻に取り込んでもらってみんなで文字起こしをしたり、といったことができるようになっています。ジャパンサーチにメタデータを提供すれば検索機能が提供されることになりますので、検索機能も自前で提供しなくてもいいかもしれません。そうすると、「IIIFに対応した公開」をするだけで色々なことができるようになります。

ということは、言い方を変えると、技術的に高度化しようと思ったら、そういったサービスを超えるもの、あるいは別方向で何か工夫する、といったことが必要になります。それはそれで価値のあることで、たとえばコンテンツ情報を地図上にマッピングする、といったこともあり得ますし、テキストデータをより深く構造化した上で画像の任意の箇所とリンクする、といったことも考えられます。最近は、色々な便利な機能を簡易に開発するためのツールがフリーで使えるようになっていますので、作るだけなら色々なものが割と簡単に作れます。外注すると独自拡張は結構高く付きますが、内製してしまえば人件費だけで作れてしまいます。素晴らしいですね。

…と、そこで出てくる課題が、先ほどと同様に、引継ぎの問題です。あるいは、サステナビリティと言ってもいいでしょう。技術的な高度化は、システムの方に入るので、一度作ればしばらく使えます。が、内製した場合、担当者が交代した時のことを考えておく必要があります。こういうものを作る人は、サービス残業上等、という人が多いと思いますが、それでもやはり、そうでない人が次に配置された場合のことは考えておく必要があります。研究者とか専門職的なポジションの人なら異動しないから大丈夫、ということもありますが、それでも、定年はありますし、もっとよい職場を目指して急に転職してしまうこともあります。○○先生が作ってくれたシステム、転職後はどうしよう…という話はちょこちょこ耳にします。これもなかなかの悲劇です。

　では外注なら大丈夫なのか、と言えば、実はそれはそれでかなり危険な場合があります。カスタマイズということは、その外注先でしか作れないものを作ってしまうことになりかねないのですが、デジタルアーカイブのシステムは、OSやサーバソフト等のセキュリティ対策アップデートに期限が定められているため、5～8年くらいで必ず入れ替えをしなければなりません。その入れ替えの際に、カスタマイズされていると高額な費用を請求されてしまうことになります。（ただし、「オプションでIIIF対応」ということならばむしろ開放的になりますので大丈夫です）。ですので、がんばって予算を確保してスペシャルな機能を付けた…ということが、数年後の担当者の苦労を増やす、ということになる場合があります。

ということで、こういう場合には、やはり引継ぎ可能かどうか、ということを中心に考えていくことが重要です。内製にしても外注にしても、「他の人・会社が対応できるかどうか」がポイントになります。そうすると、無難なのは、なるべく（国際）標準的な規格や技術に沿ってデータやシステムを作る、ということです。これができていれば、他の人が引き継ごうとした時にも、説明文書がすでに世界に公開されていますので、それをみながら対応できます。逆に言えば、独自のものを作ってしまうと、作った人しか説明文書を作成できないので、作った人の仕事を増やしてしまう上に、説明文書がない部分はよくわからないから誰も手を出せない、ということになりかねません。

まとめ

ということで、専門知識をデジタルアーカイブ構築に活用できる状況というのはそんなに多くないし、専門知識があったからとて、それを中心にロジを組立ててしまうと先々大変なことになってしまうこともあるので、専門知識を活かす際には業務上の互換可能性を意識しつつロジを検討するのが重要です、ということでした。

2024-01-01

ABBY FineReader 15で複数PDFにまとめてOCRをかけるには

デジタル小技

ABBY FineReader 15で複数PDFにまとめてOCRをかける方法です。「一つずつファイルを開いてOCRをかける」手間を省くことができます。超快適です。

なお、ABBY FineReader は最新版ではありません。最新版を持っていないので、最新版でこれができるかどうかはわかりませんのでご注意ください。（最新版でできた、という人がいたら教えてください。

まず、ABBY FIneReader 15 OCRエディタを開いてください。それから、メニューバーから「ツール」⇒「自動化ツール」を選んでください。そうすると、自動化ツールの「タスク設定」ダイアログが表示されます。

ここで「新規」を選択すると、新しい自動化処理の作成ができるようになります。

今回やりたいことは、OCRに関わる一連の操作です。そこで、それらを一通り設定していくのですが、特に重要なのは、「OCR対象のPDFが入ったフォルダの指定」と「OCR後ファイルの出力先」です。

というわけで、まずは「タスク設定」の左側の「タスクの手順」のリストの中から「新規OCRプロジェクトを作成する」を選択します。

次に、「画像またはPDFを開く」を選びます。

次に「このフォルダの画像またはPDFファイルを処理します」を選んで、「参照」ボタンをクリックして、PDFの入ったフォルダを選択します。

次に「タスクの手順」以下から「分析」をクリックします。この設定はとりあえず自動的に分析する、を選んでおけばよいかと思います。

次に「タスクの手順」以下から「OCR」をクリックします。これはデフォルトで大丈夫かと思います。

次に「タスクの手順」以下から「保存／送信」をクリックして、表示されたサブメニューから「ドキュメントを保存する」を選択します。そして、「保存形式の種類」のところは「検索可能PDFドキュメント」を選びます。

次に、「ファイルの命名」以下で、「指定した名前で指定した場所に保存する」を選択して出力フォルダを指定し、「タイムスタンプ付きのサブフォルダを作成する」にチェックを入れて、「ファイルオプション」で「各入力ファイルを個別に作成する」を選んでください。それが終わったら「完了」ボタンをクリックしてください。

そうしたら、今作成したタスクを選択して「実行」をクリックします。

それから、16GBメモリのPCで処理した際の体感では、フォルダ内のPDFの容量の総量が合計で2GBを超えると動作がかなり厳しくなるという印象です。ですので、私は、2GB以内に小分けして作業しております。

作業が開始されると以下のような進捗表示が出ます。「○○ページ中××ページを分析しました」というメッセージの○○と××の両方が着々と増えていきます。この数字の読み方がよくわかっておらずこの処理をするたびに不安になっているのですが、まあとにかく、待っていれば終わります。

…

なお、これは、マニュアルをよく読んで、インターフェイスをよく見ればできることなのですが、この機能は半年～1年に一度くらいしか触らないために、時間が経つと忘れてしまって一から確認することになってしまうので、その無駄を避けるために、備忘録としてメモしているということです。図書館等でのアクセシビリティ対応がらみでこういう仕事をする人が増えているらしいということもあり、もしかしてお役に立つかもしれないと思ってブログ記事にしました。何か特別なことをしているわけではないので、ご了承ください。

2024-01-01

『般若心経』の敦煌写本＠フランス国立図書館を大正新脩大蔵経と比較できるツール

IIIF IIIF応用 IIIF環境準備デジタル人文学研究データ TEI

このところ、少しずつ時間をみつけて改良を続けている、「大正新脩大蔵経と他の木版・写本を簡単に比較できる仕組み」ですが、表示を高速化できるように色々工夫を行いまして、割とお待たせせずに表示できるようになりつつあります。

それから、「木版大蔵経の版まるごと」の比較だけでなく、個々の経典の写本や版本でも対比できるように、全体的に枠組みを拡張しました。まずはお試し版ということで、短いけど有名なテキスト『般若波羅蜜多心経』で、フランス国立図書館に所蔵されている敦煌写本ペリオコレクションから2つの写本を組込んでみました。以下の画像で、左上の「大蔵経一覧」のところを選ぶとそれぞれの版と大正新脩大蔵経が表示できるようになっています。

https://sate.dhii.jp/VIEW/ZJK/TID/T0251_.08.0848c04

これらのテキストでは、黄色いマーカーがついていますが、そのうちで、「＠」ではなく文字についている箇所は、大正新脩大蔵経と文字が異なっている部分です。（なお、フランス国立図書館の画像サーバは結構重く、よく止るので、画像が見えない時は焦らず、のんびりご対応ください。）

大正新脩大蔵経（左側）のテキストの黄色いマーカーがついている文字をクリックすると、対応する真ん中のＯＣＲテキストが画面の真ん中に移動し、同時に、それに対応する画像も表示されるはずです。これで、テキストの異同の確認を画像単位でできるようになりました。SAT2018の該当行からもいけますので、そちらから試していただいてもよいかと思います。以下の画像のように、見たい版にチェックボックスをいれて、本文の確認したい行をクリックすると、新たなウインドウが開いてその箇所が表示されます。

さて、これは例によって、国立国会図書館の古典籍OCRを使ってテキスト化したものです。…と言っても、木版はともかく、敦煌写本の手書き文字はなかなか手強かったようで、おそらく25％くらいは手直しをすることになりました。まあ、それは、人間がみてもよくわからないかもしれないような字でしたので、仕方が無いことかと思います。

この仕組みはまだ開発途中で、にも関わらず公開してしまっているのですが、つまり結構頻繁に改良作業のために一瞬止ったりすることがある、ということになります。その点、お気をつけいただけますとありがたいです。

2023-08-30

NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に：

表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。

やや説明が難しいのですが、何ができるように／便利になったのかというと、「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行がそれぞれ拡大表示される」機能が追加された、というものです。（最近はシステムを他の人に作っていただくこともありますが、今回は表示システムの部分は全部自分で作っています）

SAT大蔵経DBはこちらです。

そして、この位置合わせを行うにあたって、NDL古典籍OCRで生成したテキストデータが非常に役立った、ということなのです。

例として、以下のURLで表示可能な経典を用いてみます。

21dzk.l.u-tokyo.ac.jp

先に具体的な使い方をご説明しますと、今回、下記のところに新たにチェックボックスが2つ追加されました。

たとえば、上記のように「宮内庁宋版対応箇所」にチェックを入れてから、大正蔵テキストの気になる箇所をクリックしてみます。今回は、以下の箇所にて脚注の異読（異文・校異）情報がごちゃごちゃしていてちょっとあやふやな感じなので、「＜宮＞」が本当はどうなのか、というのを確認しようとしてみます。

ここでは、チェックを入れたのちに「本文を」クリックするのが重要です。脚注ボタンをクリックしても上手く動作しないことがありますのでご注意ください。

本文をクリックすると、新しいウインドウがポップアップして、今回の場合ですと以下のような表示がなされます。

ここでは3つの画面に分かれています。以下の画面に赤字でそれぞれの説明をつけております。

真ん中のOCRテキストと右側の宮内庁宋版一切經画像とは、行単位で対応しており、OCRテキストをクリックするとそれに対応する行に移動して拡大表示されるようになっています。もちろん、画像の方は自由に拡大縮小したりできます。

文字にやたらと黄色いマーカーがついていたり、「🛇」がちょこちょこ入っていたりしますが、それらは、大正蔵テキストとOCRテキストとの異なる部分を表示するために用いられているものです。OCRテキストの誤りが、少ないとは言えちょこちょこありますので、それは追々修正していく予定です。修正機能もこのシステムには組込まれています。…が、まだNDL古典籍OCRのバージョン2を試していないので（現在OCR中ですが大蔵経1件で1週間くらいかかります）、これを試した後にテキストを全面入れ替えするかもしれませんので、修正の方はしばしお待ちください。

また、大正蔵の脚注と付き合わせて確認したい…という場合には、脚注簡易表示の仕組みも用意されています。以下の赤丸（？）で囲んだアイコンをクリックすると、脚注の内容がSAT大蔵経テキストのウインドウの小さなウインドウに表示されるようになります。

なお、この仕組みは、大正蔵の行番号を与えればそれに対応する箇所の各大蔵経画像の画像を拡大表示するようになっていますので、たとえば以下のようにして当該箇所にリンクを張ることもできます。

https://sate.dhii.jp/VIEW/PLS/TID/T0263_.09.0063b29

https://sate.dhii.jp/VIEW/UTK/TID/T0263_.09.0063b29

たったこれだけか…と思われる人もいらっしゃるかもしれませんが、基本的に、これまでは、「巻」まではリンクできていたものの、そこから先は人の目で対応箇所を探さねばならなかったのです。これに結構時間がかかってしまうのです。本来、文献をきちんと読み込もうとするなら、テキストや脚注がなんだかあやしくて誤植かもしれない…という場合、元の資料にきちんとあたるべきで、しかし、画像公開されているとはいえ、該当箇所を探すのに毎回数分～十数分かかってしまうようだと、時間的に大変ですし、度重なれば認知的負荷も相当なものになります。ですので、実際にはかなり専門的に研究しているテキスト以外では、該当箇所を画像で確認しようという気になるのはなかなか難しいことだったのではないかと思います。

しかし、このように、気になる箇所の本文をクリックすれば該当箇所を表示できる、という機能が出てくると、そのような状況は一気に変わっていきますね。元資料に簡単にアクセスできるとなると、論文等の研究成果の精度を上げることへのハードルがより低くなりますね。というか、自分以外の人が簡単に確認してしまうかもしれないことは、自分でも確認しておかないと、通る論文も通らなくなってしまう、というようなことにもなりかねないので、やはり確認せざるを得なくなるだろうとも思います。

ここで、NDL古典籍OCRの必ずしも正確でないテキストが何の役に立っているのか…ということは、ちょっと説明がややこしいのでそれはまた今度にしますが、今回の使い方にはおおよそ十分な精度（ただしテキストによってはあんまりうまくいかない場合もありますが）であり、これなくしては、この「簡単に該当箇所の画像を拡大して確認する」ことはできなかったのです。

というわけで、ますます、国立国会図書館の、特にNDL古典籍OCRを開発してくださった青池さんや、青池さんがこのようにして獅子奮迅の活躍をできる場を作ってくださった国立国会図書館の役職者の方々に感謝するところです。

それから、もちろん、このような貴重な大蔵経画像を公開してくださっている、宮内庁、慶應大学斯道文庫、東大図書館、大蔵経研究推進会議をはじめとする関係者のみなさまにも大変感謝しております。それなくしてはこのような取組みを考えることさえできませんでしたから。

ただし、この機能が使えるのは、宮内庁宋版（宮本）か東大嘉興蔵（明本の刷り違い）が公開されている経典に限られますので、ご注意ください。また、巻単位での位置合わせがうまくできていないテキストも表示されないことがあります。そのあたりはこれから追々修正しておきますのでご容赦ください。

Ted Underwood 『遠い地平線』 序文「文学の地平線の弧」和訳

「内容を深める」

「技術的に高度化する」

まとめ

Ted Underwood 『遠い地平線』　序文「文学の地平線の弧」和訳