2021-05-30

書物のグローバルな歴史における日本の位置付け

今夜は慶應義塾ミュージアム・コモンズのシンポジウム「KeMCo国際シンポジウム｜本景——書物文化がつくりだす連想の風景」を拝聴して勉強させていただいた。

前大英図書館収書・司書部長のクリスチャン・イエンセン氏、トロント大学の中世英文学教授、アレクサンドラ・ギレスピー氏、オクスフォード大学ボドリアン日本研究図書館長のアレッサンドロ・ビアンキ氏という豪華な海外メンバーに加えて、日本からも松田隆美氏、佐々木孝浩氏、徳永聡子氏、という豪華メンバーに加えてディスカッションは本間友氏が仕切るという、慶應大学の盤石さを感じさせる素晴らしい構成のシンポジウムだった。

ベンヤミンのアウラを媒介としてミュージアムと図書館における価値の在り方の違いを明快に示した冒頭のイエンセン氏の講演は、このシンポジウムのみならず、ミュージアム・コモンズや、さらに、議論の場の形成に課題を抱える日本のデジタル・アーカイブにヒントを与えるものでもあったように感じた。それに続く、マイクロCTスキャンや化学分析等の様々な技術を活用して古典籍を分析するギレスピー氏、書物のパラテクスト性の議論をケムコの展示に展開する松田氏、その後、小休止を挟んでビアンキ氏による書物とアートの関係、佐々木氏による八万塔陀羅尼に始まる特小本から想定し得る生活史の中での書物の位置づけ、徳永氏による旅行案内書の造本方式の発展の話など、どれも色々な示唆を与えてくれる興味深い発表であった。

本筋とはやや関係ないのだが、今回とくに気になったのは、ギレスピー氏の発表だった。サンスクリット語のバガバッド・ギーターを含む本や、敦煌莫高窟で見つかった、仏尊が描かれ漢字で少し文章が書かれていた、鉄釘で（これが分析によって判明したことの一つだそうだ）どこかに貼り付けられていたであろう紙など、世界各地の様々な資料についての、物としての詳細な分析による書物の在り方の想定がなされていた。この種の研究は、これほど総合的ではないにせよ、日本でも実践女子大学の「紙のレンズからみた古典籍」シンポジウムや国際シンポジウム「料紙研究×自然科学：古文書研究の新展開」などが開催され、高精細デジタルマイクロスコープで紙の繊維をみたり、紙に含まれるでん粉粒の状態を観察したりするなど、紙の性質からアプローチするという取組みについては始まっているようだ。こういった研究では、テキストデータのように内容を一括して分析するといったこととはまったく逆で、一つ一つの物の物質性を通じてそこから見える歴史や文脈を明らかにしようとすることになる。遠読か精読か、という見方をするなら究極の精読であり、一つの書物の全体をくまなく確認することすら困難だろう。

つまり、研究対象をごく小さな点で定めて、そこから全体を想定するような研究ということになりそうである。そうだとすると、グローバルに書物の物質性を分析していこうとしたときに、どの点をどう定めるか、ということが非常に重要になるだろう。書物ということであれば、書写や印刷術で作成されるということで、言語というよりはむしろ文字の違いが重要になりそうだ。ということは、研究対象を定める際には、文字の伝播の仕方を一つの参考とするのがよさそうである。そのように考えると、ローマンアルファベットの系統やアラビア文字、ブラフミー文字、漢字、といったあたりからチョイスしていくことになりそうであり、実際の所、文献が非常に豊富なのもそのあたりである。しかしながら、それを踏まえた上で、やはりグローバルというからには、マジョリティ的なものばかりを追いかけるだけでなく、いわばそういったメインストリームから外れたところもきちんと参照していく必要があるだろう。ではどこどのように見ればいいのか。そこで、漢字文化圏の周縁としての日本語という位置づけが有用になってくるように思う。漢字に影響されつつ自らの書物文化圏を構築していった地域としては、他にも朝鮮半島やヴェトナム等があると思うが、他にも同様に、ブラフミー文字に影響されつつ南アジア・東南アジアに幅広く書物文化圏が構築されるなどしてきたように思われる。そうすると、どこに研究対象を見出すかという検討を行う際に、影響を大きく持った（ようである）書物文化圏の中心的な地域と、それに対するその周辺地域という仮の枠組みは、作業仮説としてはある程度有効であると思う。この作業仮説に基づいてプロットを行い、広げていくことが、その作業仮説を覆すような発見をもたらしていくこともあるかもしれず、そういう意味での面白さもありそうだ。このような作業仮説のなかでは、周辺地域の一つである日本語の書物は、周辺でありながら、しかし独自の大量の書物を有しており、その調査も相当に進んでいるため、研究対象を見つけやすい上に分析後の位置づけも比較的容易である。そうだとすると、グローバルな書物史を検討する際に、周辺地域の事例として非常に活用しやすいのではないだろうか。しかも、やや余計なことかもしれないが、中心で作られたものを様々に輸入して大事に保管してきたところでもあり、そういった文化的な特徴も議論の俎上にのせると何か面白い分析ができるかもしれない。

ということで、今回のシンポジウムを拝聴してみて、今後は周辺地域としての日本という位置づけを書物史に関するグローバルな議論の中でうまく提起していくとよいのではないかと（改めて）思ったところだった。

2021-05-26

この5年ほどのデジタル・ヒューマニティーズ学会の発表者の動向（＋Palladioの使い方）

デジタル小技デジタル人文学

デジタル・ヒューマニティーズ（DH）学会といえば、ADHO (Alliance of Digital Humanities Organizations)で開催している年次国際学術大会が最大級です。「デジタル・ヒューマニティーズ」を冠するようになったのは2006年パリ大会からですが、その前から、欧州と米国での合同カンファレンスが開催されてきました。ADHO結成後は、カナダ、オーストラリア、日本等々、各地でDH学会が設立されてこれに参画するようになっていったのでした。

ADHOは他言語多文化主義に力を入れていて、その流れから、欧州-北米-その他地域というルーティンでDH学会を開催しようということになり、2015年にはシドニー、2018年にはメキシコシティ、という風に、欧米外で開催されてきました。特に2018年のメキシコシティの大会は、中南米からの発表者が増えたという点で、開催した意義は大きかったのだろうと思います。

では、そのような学会の発表者は、一体どういう国・地域から参加していたのか？ということは、やはり気になるところでしょう。実は、これを調べるためのデータはGitHubにて提供されています。こちら⇒https://github.com/ADHO/ を見ると、2016-2018の発表論文のデータが公開されていて、そのうち、2017年大会以外はTEI/XML準拠のデータです。TEI/XML準拠ということは、「著者のメールアドレスだけを取り出す」「メールアドレスが.comドメインなら代わりに所属情報を取り出す」といったようなことが（データがきちんと入っていれば）DOM操作で確実にできます。では、2019, 2020はどうでしょうか。これは、それぞれの学会サイトでTEI/XML準拠の発表論文データがダウンロードできるようになっていて、簡単なスクレイピングプログラムを走らせればすべて入手できます。なお、2017年に関しては、htmlデータしかないので、メールアドレスはmailto:を探して見つけられるとしても、所属情報を探し当てるのはちょっと難しいです。

ちなみに、なぜ発表論文データがTEI/XMLで存在しているのかというと、ADHOのDH会議では、TEI/XMLで提出させているのです。もちろん、ワード文書からTEI/XMLファイルを生成するコンバータのようなものを提供していて、単純なものであればそれで大体間に合います。発表原稿提出時はちょっと面倒ですが、後々、コミュニティの在り方を考えたり、それをどう発展させるかという議論を行うにあたっては、様々な観点からのエビデンスの提供元として非常に有用です。みんなの少しの手間が分野全体を支える力になるという一つの例と言えるでしょう。

国別延べ発表者数のデータ (2016-2020)

さて、そのようにしてデータを入手したら、メールアドレスと所属情報から、とりあえず、「どこの国の組織からどれくらい発表者が来ているか」というデータを作ってみます。基本的に、国別ドメインで分けるという大雑把な分け方をしてしまいましたが、Python3 のBeautifulsoupを使えば割と簡単にできます。<teiHeader>の中の<titleStmt>の中の<author>の中に<affiliation>とか<email>等のエレメントが入ってますので、<email>のテキストデータからトップレベルドメインを取りだして、それが国別ドメインならそのまま国としてカウントして、.comなら<affiliation>のデータをみて国を判定して、国別ドメインに振り分け、最後は .eduや.orgを.usにカウントして…ということで、できあがったのが以下のCSVファイルです。

ADHOConf/DHConf2016-2020_presenters.csv at main · knagasaki/ADHOConf · GitHub

　なお、カウントしている数字は、1つの発表で10人発表していたら10人、そのうち米国が2名でドイツが8名なら、1つの発表で米国2件、ドイツ8件、という数え方になります。また、今回は人物同定をしていないので、同じ人が3件の発表に共著者として名前を連ねていたら3件という風に数えています。ですので、この数字から見えるのは、それぞれの国の研究の規模感のようなものと考えていただくとよいかもしれません。

プログラム自体も公開すると十全なのですが、あまりきれいに書いていないので、データのみ公開ということにさせていただきます。

ちなみに、各年の開催地は以下の通りです。

2016年　ポーランド・クラクフ
2017年　カナダ・モントリオール
2018年　メキシコ・メキシコシティ
2019年　オランダ・ユトレヒト
2020年　カナダ・オタワ（開催はオンライン）

国別延べ発表者数の推移 (2016-2020)

こういう数字があると、たとえば以下のようなグラフをエクセルで簡単に作ったりできますが、

f:id:digitalnagasaki:20210526005917p:plain

米国が基本的に多くて、イギリス・カナダ等の英語圏がやはり強いけど、ドイツがそこに割って入っているとか、フランスも多いけどオランダも意外と多いとか、色々なことが見えてきます。ちなみに、2019年の採択率が40%くらいでしたので、裾野としてはこれの2倍くらいと考えていただくといいかもしれません。日本も一応、5年間で延べ100人を超えるくらいの研究者がここで発表された研究に関わってきているようですね。

国際共同研究ネットワークの状況 (2016-2020)

このような国別データがあると、次に気になってくるのは、「国際的な研究ネットワークの図がここから作れるのではないか？」ということですね。これもデータをちょこちょこいじるとそれらしいものを作ることができます。要するに、先ほどのデータとプログラムを用いつつ、「一つの発表について、複数の国の著者が連名していたらその組み合わせを取り出す」というプログラムを作ってみるのです。そこで国別のデータは作れます。しかしそれだけでは面白くありません。ここまできたら地図にのせてネットワークを描きたいですね。たとえば以下のようなものです。

f:id:digitalnagasaki:20210526003026p:plain

そこで、もう一工夫です。今回は国別ドメインを用いてデータを作っていますが、そうすると、世界の首都の位置データ Location Data of World Capitals - ASTI アマノ技研と組み合わせることで、各国の首都の地図座標を与えることができます。

そうすると、以下のようなデータを作れることになります。

ADHOConf/dh_collab.tsv at main · knagasaki/ADHOConf · GitHub

これを地図に載せたいわけですが、ここで出てくるのが Palladio です。スタンフォード大学で開発・公開してくれているWebアプリで、自分が作ったデータの簡単なネットワーク化や地図上での表示などができます。

とりあえず、やってみましょう。まずは「Start」をクリックしてみます。

f:id:digitalnagasaki:20210526003911p:plain

次に、フォームに、上記のdh_collab.tsvの内容をペタっと貼り付けて「Load」をクリックします。

f:id:digitalnagasaki:20210526004040p:plain

そうすると、以下のような画面になります。ここで、データを色々操作することになるのですが、とりあえず、地図にのせてネットワークを書くことを目標にしますので、「map」タブをクリックしましょう。

f:id:digitalnagasaki:20210526004222p:plain

そうすると、地図に載せるレイヤーを編集できるようになりますので、ここで「New layer」ボタンをクリックします。

f:id:digitalnagasaki:20210526004336p:plain

ここで、先ほど「Load」したデータをレイヤーとして表示できるように設定するのです。操作が必要な箇所は赤ペンで示していますが、文字入力が必要なのは「Name」の項目だけで、あとはマウスなどで選択できるようになっています。色に関しては自分で適当に選んでみてください。一通り設定したら「Add layer」ボタンをクリックしてください。

f:id:digitalnagasaki:20210526004645p:plain

そうすると、いきなりもう、以下のようなネットワークが表示されてしまいますね。ちょっとあっけなくてびっくりしますね。

f:id:digitalnagasaki:20210526004946p:plain

ネットワークのノードにカーソルをあてると、たとえば以下のようになりますので、2016-2020のDH会議で行われた研究発表においては、ドイツと他国組織の研究者との間に222件の共同研究のつながりがあった、ということになります。

f:id:digitalnagasaki:20210526005159p:plain

拡大縮小したりドラッグしたりして他にも色々な情報を見ることができますので、よかったら色々試してみてください。

2021-03-13

3D×紙の繊維×漢字字形：イベント盛りだくさんな土曜日でした

3/13（土）は、参加したいイベントが盛りだくさんな日でした。

なんとか少しでも参加できたのは、3Dと紙の繊維と漢字字形を扱う3つのイベントでした。他にも日本語コーパスのイベントと舞台芸術アーカイブのイベントがありましたが、残念ながら、これは参加できませんでした…。

特に3次元データと紙の繊維のイベントで共通しているように思われたのは、人文学において新たに取り込もうとしている認識の様式をどのようにしてこれまでの文脈のなかで共有可能な言語、あるいは記号に置き換えるべきか、という点でした。3次元データイベントの方では、ディスカッションの時間に、考古学における計測と観察の関係についての議論等で特にそういう話が出ていたように思われました。一方、紙の繊維のイベントの方では、とくに、舟見一哉氏の発表でそういった問題意識が丁寧にまとめられていたように感じました。後者のイベントは、実践女子大で入手した VHX7000という高精細マイクロスコープで紙の繊維を観察してその顕微鏡画像から資料に含まれる事実を解明しようとする私立大学ブランディング事業のシンポジウムということのようでした。すでに佐藤悟氏が国文学研究資料館のイベントで発表をしておられたことがあったと思いますが、今回は色々な論者による様々な観点からの発表がずらっと並んでいてなかなか壮観でした。紙の繊維のイベントの方は、発表レジュメがWeb公開されているのでそちらでその一端を知ることができると思います。舟見氏の発表に限らず、全体として非常に面白いシンポジウムであり、レジュメ資料もそれなりの情報量がありますのでこれは読むことをおすすめしたいところです。ただ、舟見氏の発表はスライド資料がわかりやすく充実していたように思われまして、あれも公開していただけるとうれしいなあ…などと思ったりしたところです。

一方、漢字字形の件というのは漢字文献情報処理研究会における上地宏一氏によるGlyphWikiについての発表を指しています。こちらは新しい認識の様式を共通化して取り込む、という点について、機械可読・変形可能な漢字の部品を対象として取り組んだと言うことができるように思われるが、なんと2001年には、「部品で漢字を表現するシステム」としてのKAGEシステムの中核部分を実装していたとのことです。（この件はリアルタイムに知っていましたが、年代はもう忘れてしまっていたので確認してみたのでした。）

一度、そのようにして機械可読・変形可能な漢字の部品が共有されたことにより、このシステムはGlyphWikiという漢字字形共同作成システムへと発展します。漢字の部品は言葉を表現するための要素ではありますが、言葉では表現しきれない情報も、機械可読・変形可能な漢字の部品として共有できるシステムを誰もが利用可能になったことで、それまでの様式を超えた情報交換も可能になった、という点が非常に面白いところです。ちなみにこの　GlyphWikiは、10年以上継続運用されてきた結果、東アジアの漢字マニア／研究者の間ではデファクト標準になっていて、海外で漢字の議論をしているとしばしばこれが字形共有基盤として出てくるようなものなのですが、トップ投稿者は49万文字、上位からみて第30位でも11642文字を投稿しているとのことで、相当に広まっていることが想像されます。漢字を作成するためのエディタが優れていて、簡単に新たな漢字字形を作成できる点と、部品として使えるフォントのライセンスがフリーであるという点が受容されているところなのでしょう。

さて、こうなってくると、紙の繊維の画像も、言語化を超えた次元でなんとかできないのか、という気もしてきます。となると、今はディープラーニングによる画像認識が使えないのだろうか…というテーマは、なんとすでに明日の紙の繊維のシンポジウムで中村覚氏による発表があるそうです。すでにレジュメは公開されていますが、発表の方も気になるところです。

というようなことで、人文学においても研究における認識の様式が、今後しばらくの間、様々な局面で新たな状況への対応が必要になっていきそうな雰囲気です。 @yhkondo先生の以下のツィートを拝見して、まったく同感だと思ったところでした。

二つのシンポジウムを見たが、超高精細4Kデジタルマイクロスコープにしても、古典語全般に及ぶ通時コーパスにしても、文系の研究にも最新のテクノロジーが必須になってきたことを改めて実感した。
— yhkondo (@yhkondo) 2021年3月13日

それはそれとして、本日は期せずしていくつものイベントを並行して拝聴することになりましたが、エジプトに行ったり敦煌に行ったり英国図書館に行ったり、そうかと思えば高山寺に潜り込んでみたりイェール大学やらブラウン大学に行ってみたり、中国の大学のやや厳しい雇用事情を知ってみたりと、フィールドとしての人文学の多様性を実感したというか、世界一周旅行をしたような気分になってしまいました。熊倉和歌子氏の「期せずして補修前の遺跡の姿をVR保存することになってしまった」というエピソードも臨場感を与えてくれてわくわくしたものでした。こういうたくさんの話を家で聞けるというのは、一過性のものかもしれませんが、直接お会いできない残念さはあるものの、オンラインゆえの貴重な体験でもあるかもしれないと思いながら余韻に浸っているところです。

2021-03-11

「人間文化研究情報資源共有化研究会」への期待

デジタル人文学オープンアクセス

明日、3/12（金）は、デジタル人文学／人文情報学に関する重要なイベントが2つあります。片方は人文学の研究データの基盤の話、もう片方は研究データをどのように展開するか、というテーマを扱うようで、この二つが重なってしまうのはなかなか残念なことなのですが、特に年度末はよくあることなので、それはそれとしてなんとか対応するしかありません。

しかしながら、ただ参加するだけなら両方視聴すればよいのですが、今回はそのうちの片方の国際シンポジウム「古典のジャンルと名所－デジタル文学地図の活用」でコメンテイターをすることになったので、そちらをきちんと拝聴するつもりであり、そうすると、もう片方はあまり耳を傾けることも議論に参加することもできないだろうと思います。しかしながら、人文学の将来にとっては非常に重要なプロジェクトが開催するイベントなので、話を聞くことはできないにしても、期待するところだけでもお伝えしておかねばということで、関係者の人がこちらを読んでくださることを願いつつ、以下に少し書いておきたいと思います。

参加できない方のイベント、というのは、第16回人間文化研究情報資源共有化研究会のことです。人間文化研究機構という、国内トップクラスの国立人文系研究機関を束ねる組織が進める、人文系の研究データを共有できるようするという事業であると個人的には理解しております。それぞれの所属機関が公的資金を投入して構築した貴重かつ有用な研究データを大量に蓄積しており、さらに、それらを横断検索できるようにしているのが統合検索システムnihuINTです（多分）。単なる検索だけでなく、地図年表上での検索結果のプロットなど、現在の技術でそれほど手間をかけずにできそうなことは大体実現されていて、お手本のようなサイトの一つです。今後も色々拡充されていくのだろうと思いますが、ぜひがんばっていただきたいところです。

そこで、これはあくまでも外野の勝手な意見というか気持ちなので実現可能性などを考慮しているわけではないのですが、拡充の方向性について、個人的には色々期待するところがあります。わがままというかお節介というか、実際に事業を推進しておられる方々には大変恐縮なのですが、そのうちの少しだけでも、あくまでも個人的な立場として挙げておきますと、

個人的な期待その1

まず、現在、研究データと言えば、オープンアクセスリポジトリ推進協会（JPCOAR）がJPCOARスキーマというものを作って研究データをリポジトリに載せることを薦める活動を推進しているようです。もちろん、JPCOARにも様々な経験者・知恵者がおられると思うのですが、今のところ、だからJPCOARスキーマに準拠して研究データをデポジットしよう、という話は人文学研究者の間からはまだあんまり聞こえてきません。一方で、こういうものは経験がものを言う場面もあり、事例の積み重ねが重要になる局面もあるでしょう。人間文化研究機構の方での研究データの横断検索やそれを実現してきた実績が、すでにJPCOARの活動にも反映されているならよいと思うのですが、もしそのあたりがまだそれほどでもないのであれば、人文学研究者を研究データのオープンアクセスリポジトリに近づけるためのノウハウを色々お持ちなのではないかと思いますので（しかしながら、よくある話として、ご自身の特長についてあまり言語化・自覚ができておられないかもしれないので）、対話の場などを適宜設けて、うまく連携していただければと思っているところです。

個人的な期待その2

それから、色々便利なものを作ってきてくださっているところですが、便利なものを提供するサービサー側にとどまってしまうと、色々な面で大変（書くと長くなるので省略します）ですので、各機関の研究者はもちろんですが、それだけでなく、利用する研究者側でも参加できるような仕組みが提供されるとよいのではないかと思っております。そうすると、利用者側の当事者意識を高めることにもつながって、結果として、大学共同利用機関としての存在意義を深めることになるでしょうから、機関としても、人文学研究者全体としてもよい方向が一つできるのではないかと思うのです。なお、そんなことわかってるし当然計画している、かもしれず恐縮ですが、外野からはそういう議論や進捗の内実もわかりませんので、その点はご容赦ください。

具体的には、まあ色々ありますが、ごくわかりやすい例で言えば、CiNiiの名寄せ報告システムみたいな簡単なものでもよいのではないかと思います。データを典拠データベースと紐付ける、くらいのことでも、つかいながら気がついた情報をちょこちょこ簡単に報告できるようになっていて、それがしばらく後に反映されるようであれば、データベースや事業への愛着を持ってくれる人も増えていくのではないかという気がします。

また、システムだけでなく、データの作り方も色々あり得るのではないかと思います。今はどうなっているかわかりませんが、研究者個人が研究データをデポジットできるマイ・データベースという仕組みを計画しておられた時期もあり、現在はむしろ JPCOARの方でデポジットの部分は担ってもらえるにせよ、そういうところで蓄積した知見を踏まえつつ、ユーザ志向のメタデータ集約システムのようなものを構築していくという方向もあり得るでしょう。それも、かつてなら認証システムを自前で構築して…ということになって大変でしたが、最近は連携認証を使ったり、 WebブラウザのLocal Storageを使ったり、手間をそれほどかけずに済ませる方法も出てきていますので、何か工夫が可能なのではないかとも思います。 EUが支援する人文系研究データリポジトリCLARIN-ERICではシボレス認証＋独自認証という運用をしているようで、あるいは国立台湾大学で構築運用しているDocuSkyなども、そういう方向性を考える上では役立ちそうな気がします。

というようなことで、外野が勝手に思っていることを、少しだけですが書かせていただきました。リソースもパワーも経験も、本当にすごいものがあって、それはこれからのオープンサイエンス時代の人文学に大きな貢献が可能であると思っておりますので、まずはそれを自覚していただきたい、というのが気持ちのベースにありまして、とにかく、関係者のみなさま、これからもがんばってください。

2021-03-10

3D学術編集版：人文学の研究成果／研究環境としての3D構築

デジタル人文学

このところ、3Dに関する取り組みがデジタル・ヒューマニティーズの世界でも見られるようになってきました。この週末には人文学と3Dをテーマとしたイベントも開催されるようで、いよいよ盛り上がりが始まる気配を感じさせます。

ではデジタル・ヒューマニティーズにおいて3Dがどういう風になっているのか、ということをちょっと見てみますと、どうも最近、Susan Schreibman先生（今はオランダのマースリヒト大学）がかなり凝っておられるようで、充実した論文を2つ、Costas Papadopoulos氏とともに2019年にオープンアクセスで刊行しておられます。Towards 3D Scholarly Editions: The Battle of Mount Street Bridge と Textuality in 3D: three-dimensional (re)constructions as digital scholarly editions なのですが、前者は具体的な事例を踏まえた実践論、後者は方法論に重きをおいた論文のような感じです。

Susan Schreibman先生と言えば、アイルランド文学研究をバックグランドに持つデジタル・ヒューマニティーズの研究者であり、デジタル・ヒューマニティーズという言葉を（おそらく）初めて使った A Companion to Digital Humanitiesというこの分野の基本書（現在はこれの改訂版が出ています）の3人の編者のうちの一人であり、TEI (Text Encoding Initiative) にも力を入れていて、学術編集版（いわゆる校異本・校訂本）の表示システムであるVersioning Machine の開発プロジェクトを率いた人としても知られています。日本にも何度かいらっしゃってDHに関する講演やTEIのワークショップを開催してくださったりしました。コロナ前は世界中を飛び回っておられて、学問的にも地理的にも幅広い視野でデジタル・ヒューマニティーズに取り組んでおられる研究者の一人かと思います。

さて、その Schreibman先生が、しばらく前から3Dに取り組んでいる、ということになれば、これは期待せざるを得ません。すでに上に挙げた2つの論文で充実した成果報告がなされていますので、詳しくはそちらをご覧いただけたらと思いますが、ざっと見ての現在の印象を少しだけメモしておきたいと思います。

基本的に、上記の研究は、それまでSchreibman先生が取り組んできたテキストによる学術編集版、つまり、いわゆる校異本とか校訂テキストのような、確かなトレーサビリティを含む学術研究に耐え得る信頼性を持った版を3Dで作るとしたら、換言すれば、これまでの学術編集版におけるテキストを3Dに置き換えるとしたらどう考えるべきか、という問題に取り組んでいるように思われます。

テキストにおける学術編集版というのは、テキストならではの抽象性・捨象性によってずいぶん楽になってはいるものの、書かれていることを学術的な証拠として用いるためにはどうすべきかという、紙媒体の時代、とりわけ活版印刷出現以降の苦闘の歴史が、デジタル媒体の登場により戦線拡大してしまい、Schreibman先生も注力してこられた TEI (Text Encoding Initiative) ガイドラインなどは、その課題にがっぷり四つに組んできたという経緯があります。多様な注釈や文脈情報をテキストでもその他の様々なメディアでも組み込んでしまえるという利便性をどう活用するか、といった拡張的・開放的な課題だけでなく、それまでは暗黙的に共有されてきた曖昧さをどう表現し、それをどう受容するか・されるか、という、いわば内省的な事柄も、デジタルになってから、より重要な課題になっています。そのようなデジタル学術編集版の（30年ほどですが）伝統を踏まえて、研究に耐え得る3Dの版を作るとしたら…ということで、テキスト研究での課題を援用しつつ色々な検討が行われているようです。そのあたりの検討は、さすがに読み応えがあります。そこで参照されている関連研究も含めて、ぜひ読んでおきたいところです。

実装に関しては、プラットフォームが安定しないためにテキストに比べて寿命が短すぎることが課題としてあげられていますが、しかしながら、デファクト標準に沿っておく方が内容に注力した議論ができるということで、現在は Unityを使っておられるようです。Unityはビデオゲーム開発のためのゲームエンジンとして100万人以上の開発者（ゲーマをする人ではなくて作る人）が使っているのだそうで、3D環境を構築する上でとても便利なのだそうです。もちろん、広く採用されているがゆえに作り方・使い方を知っている人が多く解説文書も多い、ということもあります。

この種のものとしては、ある時期、Second Lifeが広く使われていた時期がありましたが、価格設定の変更で教育利用の優遇措置がなくなったのでほとんどの研究プロジェクトが消滅した、とのことです。これもなかなか残念なことです。

ちなみに、人文学での3Dの利用には、個々の事物のデジタル複製を作成して閲覧用としたり、計測に利用したりと、様々な利用方法がありますが、そういう意味で、ここで言う学術編集版のための3Dの利用、というのは、そういった色々な使い方のなかの一つとみることもできるでしょう。

さて、このようにして3Dの学術編集版を作ろうとすると、時系列を入れざるを得ず、結局4Dになってしまうようです。4Dミラーワールド、という話は、ヨーロピアーナのリーダーがデジタル文化資料の近未来として描いていたことでもありますので、欧州各地でそういう方向に向かおうとする雰囲気ができつつあるのかもしれません。

というわけで、ここでもやはり3D＋時系列としての実質的な4Dモデルが作成されます。題材は、1916年アイルランドでのイースター蜂起のさなかの水曜日、マウント通りが運河を越える橋で起きた戦闘の経過です。Schreibman先生は、このプロジェクトの前には Letters 1916-1923という、この時期に書かれた書簡群をクラウドソーシング翻刻するプロジェクトを率いておられたので、そちらでの成果を継承しておられる面もあるのかもしれません。

f:id:digitalnagasaki:20210310001928p:plain — Letters 1916 の成果の一部

3D空間をどのように構築するか、ということは、軍事史家とのやりとりの中で決めていったようで、テクスチャをなるべくきちんと表現することや、アバターを登場させないようにすることなど、読者（閲覧者）がこの学術編集版をどう理解するか、かれらにどう理解させるべきか、という観点から検討が行われたようです。他にも、構築にあたっての色々な検討は、学術編集版のあるべき姿を考える過程として興味深いもので、時間があればぜひ読んでみていただきたいです。

このようにして、当該地区の3D地図をUnity上に構築し、そこに研究資料として得られた情報を展開していき、時空間の中でそれらの情報を確認していけるようにする、というのが、この3D学術編集版がもたらす基本的な要素のようです。このことが、史料批判も含めて様々な可能性をもたらしてくれるであろうことは、門外漢でも期待してしまうところです。

そのようなことで、雑ぱくな感じになってしまいましたが、デジタル・ヒューマニティーズにおける最近（といっても2年前ですが0の3Dの状況の一つとしてご紹介させていただきました。

ちなみに、私も、2017年くらいからUnity使って3Dデジタル学術編集版を作りたいと考えていたのですが、この学術編集版の話を聞いたとき、（2019年のユトレヒトでのDH学会のパネルセッションで知ったのですが）、私の考えていたものとはまったく観点もコンセプトも違っていて、3Dが導入されると学術編集版もかなり多様化しそうである、と思ったことでした。私が考えていたものというのは、その後も時間も予算もなく、なかなか進まないまま現在に至り、このままお蔵入りしてしまうのかな…と思っているところです。

2021-03-04

TEIガイドラインにルビが導入：人文学向け国際デファクト標準に沿った日本語テキストデータの作成が容易になりました

TEI デジタル人文学

人文学向けデジタルテキスト作成の国際デファクト標準、TEIガイドラインでルビが導入されました

2月25日付けで、TEI協会が策定・公開している人文学資料のデジタル構造化の国際デファクト標準である TEI ガイドラインの version 4.2.0がリリースされ、日本語のルビが導入されました（リリースノート）。

これにより、ルビが付された膨大な日本語テキスト資料をTEIガイドラインに準拠して構造化することが、これまでとは比べものにならないくらい簡便になりました。このことは、 国際的な人文学向けデジタルテキスト構築の流れの中に、ルビ付の日本語テキストデータをそのまま組み込むことができるようになったということでもあります。

注：ルビ以外の本文外要素、いわゆる訓点や脚注・欄外注などの色々な要素は基本的にTEIガイドラインでは昔から対応可能でした。（詳しくはこちら）さらに言えば、ルビも工夫すれば記述できていましたが、それを単純に「ルビ」という構造として記述できるようになったのが今回の「ルビの導入」です。

TEIガイドラインが欧米の人文学研究者コミュニティによりニューヨーク・ポキプシーで始まって以来、34年目にしてようやくの画期的な出来事です。TEIガイドラインが始まったころは多言語テキストを作成するだけでも大変な事でしたが、多言語（文字）を一つのコード表で扱うUnicodeの普及やコンピュータ処理、ネットワーク転送の高速化といった技術の進歩によって、技術的には可能になってきたものでした。しかしながら、人文学一般におけるテキスト資料の構造としての必要性という観点からは、特定の言語文化圏に根ざした構造を認めることはハードルが高く、そういった観点からルビの導入にはなかなか難しいものがありました。

TEIを策定するコミュニティは人文学向けデジタル資料を適切に構造化したいという組織や人が集まっています。そして、そこで選挙で選ばれたメンバーから成る技術委員会が中心になって策定しているのがTEIガイドラインです。したがって、それに積極的に関わりたいという意思を持つ人・組織が集まった任意団体として運営されてきており、組織が拡大するにつれて、技術が発展するにつれて、様々な分野への細やかな対応が可能になってきています。たとえば、2011年12月には手書き資料の翻刻をより厳密・忠実に行うこともできるようにするための大規模なアップデートが行われたり、2015年4月には書簡を機械可読処理しやすくするためのアップデートが行われたり、2020年8月にはLinked Data等の本文に直接書き込まれないデータを書きこむためのエレメントを導入したりしています。そのようななかで、今回、ルビの導入がTEIガイドラインのコア要素に組み込まれる形で行われました。

今回のルビの導入は、日本のテキスト資料を扱う人々にとって有益というだけでなく、漢字文化圏という巨大なテキスト群を抱える地域の周縁においてそれを読解するために生み出されたローカルルールが、人文学の研究手法に関する国際的なコミュニティにおいて対処すべき一つの構造として受容されたということでもあります。換言すれば、欧米外の地域における多様なテキスト文化のローカルな慣習にも同等の価値を置くという、コミュニティからの正式な表明でもあります。このことについて、TEI技術委員会の英断と、そこに至る状況を醸成してきたコミュニティに深く感謝しております。一方、このような状況を作り出すことに日本語文化圏が貢献できたということは、テキストを読むことに親しんできた日本語圏の先人達の膨大な積み重ねが結実した結果でもあり、その意味では感慨深いものがあります。

というわけで、ここまでの流れを少し個人的な視点で以下にまとめておきたいと思います。

ここまでの流れをおおまかに

ここに至るまでには、TEIコミュニティへの東アジア研究のコンテクストからの働きかけがありました。流れとしては1990年代前半に一度盛り上がった時期があったようですが、私は直接には触れることがなく、流れとしてもいったん切れてしまったような感じがあります。その後、2006年に、クリスティアン・ヴィッテルン先生が中心となって京都大学人文科学研究所の21COEプロジェクトで開催されたTEI Day in Kyoto 2006が、現在の流れを作るきっかけになったように思います。

その後、TEIの国際化という観点では、TEIガイドラインのタグ・エレメントの説明部分を多言語化するというプロジェクトがあったようで、日本からは鶴見大学の大矢一志先生が頑張ってくださり、タグ・エレメントの説明を日本語で読むことができるようになりました。

さらにしばらく時間が空きますが、この間、個人的には、TEIのスペシャリストが日本に来てくださったのでTEIのセミナーをやっていただいたり、日本デジタル・ヒューマニティーズ学会が設立されたのでそこでまたTEIのセミナーを企画してみたり、ということを細々とやっておりました。そうこうしながら色々課題を整理してきて、やはりルビだけはなんとかしなければ、ということと、一方で、日本語資料の場合にはどのように使うべきかという日本語で書かれたガイドラインが必要であることを痛感し、しかし、一人で頑張ってもどうにもならないので、どうしたものかとあれこれ案を練っておりました。

結局のところ、欧米資料が主眼になっているTEI協会にも歩み寄ってもらわないと問題は解決しないだろうと思い至り、主に科研費事業「仏教学新知識基盤の構築―次世代人文学の先進的モデルの提示（代表：下田正弘東京大学教授）」の下、国際コミュニティでのローカルルールの重要性についての議論を始めました。ちょうど、デジタル・ヒューマニティーズの国際コミュニティでもグローバル化が大きな課題になっていましたので（今もそうですが）、その流れの一環という位置づけも意識しながら、ポーランドのクラクフで開催されたDH2016で以下の発表を行い、それを以て、Charles Muller氏とともにTEI協会に東アジア／日本語分科会の正式な設立を申し入れました。

Nagasaki, K., Tomabechi, T., Muller, C., Shimoda, M. (2016). Digital Humanities in Cultural Areas Using Texts That Lack Word Spacing. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 300-303.

そこで、2016年には東アジア／日本語分科会の設立が認められ、さらにそのなかに運営員会を設立、初期メンバーとして岡田一祐氏、中村覚氏、永崎、ということで、日本語ガイドラインやルビ導入のための提案書の作成に着手しました。その後は、勉強会や翻訳会などをこまめに開催しながら、作成した情報やデータをGitHubに集積していき、主に中村覚氏により開発された様々な視覚化ツールも提供されるようになり、日本国内でTEIに準拠したデータを作成する研究プロジェクトも徐々に増えていきました。対応するプロジェクトが増えると用例が増えて、使い方もわかりやすくなっていくという循環がようやくできてきたのもこの頃です。

TEI協会側でも国際化に関する動きが進み、2018年に初めての欧米域外での会員総会としてTEI2018@Tokyoを日本デジタル・ヒューマニティーズ学会（JADH）との共催で開催し、2020年2月にはInternationalization (I18n) Working Group が設立され、多言語利用のための環境整備が始まったりもしました。

さらに、同じ時期には、延喜式のTEIエンコーディングへの取り組みを通じて小風尚樹氏が単位の記述に関する問題提起を行い、一連の議論を経て2019年8月に<unitDecl>関連のタグが ver. 3.6.0に導入されました。

そのようななかで、ルビ導入の提案書は、平仮名の研究者である岡田一祐氏を中心として運営委員会で作成されました。これもオーストリア・グラーツでのTEI協会会員総会で以下の研究発表をするなど、相応の時間を要し、深夜に2度の対面オンライン技術委員会に運営委員皆で参加し、Githubでも色々な議論がありましたが、最終的には、TEI技術委員会の皆様のご理解と、特に日本語に理解のあるヴィクトリア大学のMartin Holmes氏の献身的な協力もあり、なんとか導入に至った、という次第です。version 4.2.0のコードネームが「ruby」となっているところからも、技術委員会の方々の本気度が感じられるところでしたが、最終的に、<ruby>はTEIガイドラインのコア要素の中に組み込まれることになりました。今後のガイドラインの発展のことを考えるなら、かなり大きな決断だっただろうと想定されます。

Kazuhiro Okada, Satoru Nakamura, Kiyonori Nagasaki, An Encoding Strategic Proposal of “Ruby” Texts: Examples from Japanese Texts

他にも色々な状況があり、全体をきちんと記述できているわけではないと思いますが、筆者からみえている、本件に関わる状況は大体このような感じでした。日本文化をデジタル世界に通用するものにしていくためにやらねばならないことはまだまだ山積しておりますので、みなさまのお力をぜひ発揮していただきたく、今後ともよろしくお願いいたします。

2021-02-24

CLARIN-ERIC／欧州の言語資源データインフラについて

デジタル人文学

欧州の言語資源データインフラとして運用されているCLARIN-ERICについて、ちょっと言及しなければならないかもしれないので、CLARIN in a nutshell | CLARIN ERIC から、少しメモをしておきます。

CLARIN は、"Common Language Resources and Technology Infrastructure"の略。言語資源全般と技術のインフラ。

人文・社会科学分野の研究者を支援するために、シングルサインオン型のオンライン環境を通じて、ヨーロッパ中のすべてのデジタル言語リソースやツールにアクセスできるようにするべく始まった研究インフラ。

2012年にCLARIN ERICが設立された。それは、人文科学や社会科学の研究のための言語データやツールの共有、利用、持続可能性を支援するインフラストラクチャを構築し、維持することを使命とした。

現在CLARINは、社会科学や人文科学の研究者やもっと広範な研究者のために、デジタル化言語データ（書き言葉、話し言葉、マルチモーダル形式）への簡単で持続可能なアクセスを提供している。さらにCLARINは、高度なツールも提供している。それは、データセットがどこにあっても、発見、探索、利用、アノテーション、分析、結合できるものである。これは、言語データリポジトリ、サービスセンター、ナレッジセンターといったセンターのネットワーク化された連合によって可能となるものであり、参加国のアカデミックコミュニティのすべてのメンバーがシングルサインオンでアクセスできるようになる。データコレクションを組み合わせたり、異なるソースのツールを連結して複雑な操作を実行したりして、研究者の作業をサポートすることができるようにするため、異なる機関のツールやデータは相互運用可能となっている。

CLARIN のインフラストラクチャは多くの国で完全に稼働しており、多くの参加機関がデータ、ツール、専門知識へのアクセスサービスを提供している。同時に、最近参加したいくつかの国では、CLARINのデータセットとサービスが継続的に更新され、改善されている。サービスのページでは、現在アクセス可能なサービスを紹介し、様々なサービスを誰がどのようにアクセスできるかを説明している。

ついでに、ERICって何？という話もCLARINのサイトに乗っている情報で簡潔に。

CLARINは分散型デジタルインフラストラクチャであり、ヨーロッパ中の大学、研究機関、図書館、公文書館などの機関が参加している。すべての参加機関に共通しているのは、利用者である研究者のために、デジタル言語データコレクションへのアクセス、それらを扱うためのデジタルツール、そして、専門知識を提供していることである。

CLARIN のガバナンスと調整機関は ERIC（欧州研究基盤コンソーシアム）である。 ERIC は、2009 年に欧州委員会によって設立された国際的な法人である。CLARIN ERIC のメンバーは政府または政府間組織である。2012年以降、いくつかの国が正会員として、またはオブザーバー（正式加盟に向けての準備をする）として参加している。最終的な目標は、すべてのEU加盟国とその関連国、および欧州内外の第三国を含めることである。

CLARINは、欧州研究インフラ戦略フォーラム（ESFRI）の欧州研究インフラロードマップに選定された研究インフラの一つである。 2016年に、CLARINはESFRIの新しいロードマップのランドマークという位置づけになった。

CLARIN インフラの構築は、9 名の設立メンバーで CLARIN ERIC が設立された2012 年 2 月 29 日に正式に開始された。 CLARIN ERIC の主な業務は、CLARIN インフラの構築、運営、調整、維持管理であり、研究活動を実施したり資金提供したりすることはない。

CLARIN ERICは、欧州委員会によるCLARIN準備段階プロジェクト（2008-2011年）の財政支援を受けて設立されたが、現在は参加国が全額を出資している。