2021-06-14

人文学向け電子テキストガイドラインTEI/XMLに準拠したファイルをPHPで処理するにあたって

人文学向け構造化ルールであるTEI/XMLガイドラインに準拠して作成したファイルは、とにかく色んな方法で処理してその都度必要な状態にして利用できるのが魅力です。それについて書き始めると長くなるので詳しくは以下のページなどをご覧ください。

なお、この記事は、PHPプログラミングをかなりやりこんでいる人向けで、TEI/XMLガイドラインに準拠したファイルを処理するのに必須の知識ではありませんので、PHPをやってない人はここでお帰りいただく（？）のが正しい時間の使い方だと思います。

ここでは、最近久しぶりにPHPで処理することになり、いくつかうろ覚えだったことに再びつまづいたので忘れても大丈夫なようにここにメモしておくことにしました。（同様の理由でこのブログには DHに関連する開発についてのTipsが大量にため込まれていますので困った時にはこのブログで検索してみていただくと解決策が見つかるときもあるかもしれません）。

さて、今回は、PHPでxpathがうまく通らない、という問題につきあたりました。基本的に、PHPで XMLファイルを処理するときは、simpleXMLかDOMDocument を使うのですが、どちらでもうまくいかず、うーん、となっておりました。

なお、最近は、 Zend_Dom_Queryというのがあるそうで、これを使えばCSSセレクタでも処理できてしまうらしいので、PythonのBeautifulsoup並みに簡単に処理できるかもしれません。

それから、ここでなぜPHPを使っているのかというと、一部でPostgreSQLを使ってしまっていたりして全体としてまだPHP脳に頼らざるを得ない状況になっているためです。PHPに深入りしていない人はPythonのBeautifulsoupとか Javascriptとか使っていただくのが幸せへの道だと思います。

それはともかく、しばらくあれこれ試行錯誤していて思い出したのは、名前空間の設定です。 xmlnsがついているXMLファイルは明示的に名前空間を設定しなければならなかったのでした。たとえば以下のような感じです。

$xml = simplexml_load_file("zz2_new.xml");
$xml->registerXPathNamespace('tei', 'http://www.tei-c.org/ns/1.0');
$xml->registerXPathNamespace('xml', 'http://www.w3.org/XML/1998/namespace');

こうしておくと、たとえばこの後、以下のような感じで指定したIDを持つエレメントを取りだして処理することができます。

$pid = "TP11";
$eperson = $xml->xpath("//tei:person[@xml:id='$pid']");

なお、上記の$epersonを再度xpathで処理したい場合は、改めてregisterXPathNamespace() する必要があるようです。

大した話ではないのですが、忘れてハマると大変で、しかし、知っていれば一瞬で通り抜けられることなので、一応メモしておきます。（メモしたことを忘れないようにしないといけませんね。）

2021-06-14

Webで地図上にマーカーを載せたりグルーピングしたりする方法

デジタル人文学デジタル小技

地図上にマーカーを載せたり、マーカーをグルーピングしたりする機能、最近はかなり流行ってますね。 Wikipediaの充実等により地図上の座標情報を簡単にとれるようになってきてデータ作りが簡単になってきたというのと、自由に使える地図がかなり使いやすくなってきたということで、あちこちでそういうものが提供されるようになってきています。

もちろん、Google mapで多くのことはできますし、少し凝ったことでもたとえばOmeka + Neatlineを使うことで、マウスでポチポチするだけで地図上に色々なものをプロットできるようになっているなど、プログラミングなどはまったくしなくてもできるようになっているというのが基本的には重要な点だと思いますが、一方で、簡素なプログラミングによってこの種のことができるようになってきているという手も割と重要です。

いずれにしても、プログラミングができた方が人生色々応用がきいて楽しいという時代になってきましたし、プログラミングのスキルを高めたり確かめたりする上で、地図上に何かをプロットできるようなものを作れるとちょっと面白そうです。

ということで、とりあえずやってみようと思うのですが、まず、目指すところをおさえておきましょう。

今回は、

・Webページに拡大縮小可能な地図を組み込んで、そこにJSON形式のデータを食わせて、グルーピング可能なマーカーをプロットする

です。具体的には、こういうもの↓を作ろうという話です。

f:id:digitalnagasaki:20210614004041p:plain — 地図上で

いきなり目標が高いと思われる人もいるかもしれませんが、最近は例によって色々楽にできるものが作成公開されており、これ自体はそんなに難しくはありません。というわけで、必要な技術や道具立てについてみてみましょう。

必要なもの：

Javascript + jQueryによるプログラミング動的な地図を読み込むjavascriptのソフトウェア Leaflet マーカーをまとめてくれるLeafletのプラグイン JSONで作った位置情報データ

という感じです。

さて、ここで解説を始めようか…と思いましたが、実は以下のサイト

地図ライブラリ「Leaflet」にcluster機能を追加する - Qiita

に書いてあることに私から付け加えるようなことはあまりなくて、とりあえずそちらの作例をコピペしてみれば、大体、なるほど、という感じになると思います。

ここからさらにカスタマイズということで、たとえば自分が作った位置情報データを読み込ませたければ、上記のサイトの中で

    for (var i = 0; i < 30; i++) {
        var marker = L.marker([51.5 + (Math.random() / 10), -0.09 + (Math.random() / 10)]);
        marker.bindPopup("<b>Hello</b>");
        markers.addLayer(marker);
    }

という箇所をちょっといじればよいということになります。

たとえば、以下のようなJSONデータを locations.json というファイル名で作ったとしたら、

[
    {
        "person": "卍山道白/ 復古道人/ 隨時子",
        "type": "Residence",
        "when": "",
        "plname": "永平寺",
        "lat": "36.053056",
        "long": "136.355556"
    },
    {
        "person": "卍山道白/ 復古道人/ 隨時子",
        "type": "Residence",
        "when": "",
        "plname": "大乘寺",
        "lat": "36.532556",
        "long": "136.658944"
    },
    {
        "person": "卍山道白/ 復古道人/ 隨時子",
        "type": "Found (Sect)",
        "when": "",
        "plname": "源光庵",
        "lat": "35.054814",
        "long": "135.731722"
    }
]

jQueryでやろうとした場合、htmlファイルと同じディレクトリ（フォルダ）に置いて以下のように書いておけば読み込めるはずです。

  $.ajax({ url: 'location.json',dataType:"json"}).done(function(data){
     var markers = L.markerClusterGroup();
     data.forEach(function(e){
       var plname = e.plname;
       var personat = e.person+'@'+plname
       var lat = e.lat;
       var long = e.long;
       if(lat != ""){
         var marker =  L.marker([lat,long],{title: plname}).bindPopup(personat);
         markers.addLayer(marker);
       }
     });
     mymap.addLayer(markers);
  });

やり方を調べるのが少し億劫かもしれませんが、わかってしまうと結構簡単です。よかったらぜひお試ししてみてください。

2021-05-30

書物のグローバルな歴史における日本の位置付け

今夜は慶應義塾ミュージアム・コモンズのシンポジウム「KeMCo国際シンポジウム｜本景——書物文化がつくりだす連想の風景」を拝聴して勉強させていただいた。

前大英図書館収書・司書部長のクリスチャン・イエンセン氏、トロント大学の中世英文学教授、アレクサンドラ・ギレスピー氏、オクスフォード大学ボドリアン日本研究図書館長のアレッサンドロ・ビアンキ氏という豪華な海外メンバーに加えて、日本からも松田隆美氏、佐々木孝浩氏、徳永聡子氏、という豪華メンバーに加えてディスカッションは本間友氏が仕切るという、慶應大学の盤石さを感じさせる素晴らしい構成のシンポジウムだった。

ベンヤミンのアウラを媒介としてミュージアムと図書館における価値の在り方の違いを明快に示した冒頭のイエンセン氏の講演は、このシンポジウムのみならず、ミュージアム・コモンズや、さらに、議論の場の形成に課題を抱える日本のデジタル・アーカイブにヒントを与えるものでもあったように感じた。それに続く、マイクロCTスキャンや化学分析等の様々な技術を活用して古典籍を分析するギレスピー氏、書物のパラテクスト性の議論をケムコの展示に展開する松田氏、その後、小休止を挟んでビアンキ氏による書物とアートの関係、佐々木氏による八万塔陀羅尼に始まる特小本から想定し得る生活史の中での書物の位置づけ、徳永氏による旅行案内書の造本方式の発展の話など、どれも色々な示唆を与えてくれる興味深い発表であった。

本筋とはやや関係ないのだが、今回とくに気になったのは、ギレスピー氏の発表だった。サンスクリット語のバガバッド・ギーターを含む本や、敦煌莫高窟で見つかった、仏尊が描かれ漢字で少し文章が書かれていた、鉄釘で（これが分析によって判明したことの一つだそうだ）どこかに貼り付けられていたであろう紙など、世界各地の様々な資料についての、物としての詳細な分析による書物の在り方の想定がなされていた。この種の研究は、これほど総合的ではないにせよ、日本でも実践女子大学の「紙のレンズからみた古典籍」シンポジウムや国際シンポジウム「料紙研究×自然科学：古文書研究の新展開」などが開催され、高精細デジタルマイクロスコープで紙の繊維をみたり、紙に含まれるでん粉粒の状態を観察したりするなど、紙の性質からアプローチするという取組みについては始まっているようだ。こういった研究では、テキストデータのように内容を一括して分析するといったこととはまったく逆で、一つ一つの物の物質性を通じてそこから見える歴史や文脈を明らかにしようとすることになる。遠読か精読か、という見方をするなら究極の精読であり、一つの書物の全体をくまなく確認することすら困難だろう。

つまり、研究対象をごく小さな点で定めて、そこから全体を想定するような研究ということになりそうである。そうだとすると、グローバルに書物の物質性を分析していこうとしたときに、どの点をどう定めるか、ということが非常に重要になるだろう。書物ということであれば、書写や印刷術で作成されるということで、言語というよりはむしろ文字の違いが重要になりそうだ。ということは、研究対象を定める際には、文字の伝播の仕方を一つの参考とするのがよさそうである。そのように考えると、ローマンアルファベットの系統やアラビア文字、ブラフミー文字、漢字、といったあたりからチョイスしていくことになりそうであり、実際の所、文献が非常に豊富なのもそのあたりである。しかしながら、それを踏まえた上で、やはりグローバルというからには、マジョリティ的なものばかりを追いかけるだけでなく、いわばそういったメインストリームから外れたところもきちんと参照していく必要があるだろう。ではどこどのように見ればいいのか。そこで、漢字文化圏の周縁としての日本語という位置づけが有用になってくるように思う。漢字に影響されつつ自らの書物文化圏を構築していった地域としては、他にも朝鮮半島やヴェトナム等があると思うが、他にも同様に、ブラフミー文字に影響されつつ南アジア・東南アジアに幅広く書物文化圏が構築されるなどしてきたように思われる。そうすると、どこに研究対象を見出すかという検討を行う際に、影響を大きく持った（ようである）書物文化圏の中心的な地域と、それに対するその周辺地域という仮の枠組みは、作業仮説としてはある程度有効であると思う。この作業仮説に基づいてプロットを行い、広げていくことが、その作業仮説を覆すような発見をもたらしていくこともあるかもしれず、そういう意味での面白さもありそうだ。このような作業仮説のなかでは、周辺地域の一つである日本語の書物は、周辺でありながら、しかし独自の大量の書物を有しており、その調査も相当に進んでいるため、研究対象を見つけやすい上に分析後の位置づけも比較的容易である。そうだとすると、グローバルな書物史を検討する際に、周辺地域の事例として非常に活用しやすいのではないだろうか。しかも、やや余計なことかもしれないが、中心で作られたものを様々に輸入して大事に保管してきたところでもあり、そういった文化的な特徴も議論の俎上にのせると何か面白い分析ができるかもしれない。

ということで、今回のシンポジウムを拝聴してみて、今後は周辺地域としての日本という位置づけを書物史に関するグローバルな議論の中でうまく提起していくとよいのではないかと（改めて）思ったところだった。

2021-05-26

この5年ほどのデジタル・ヒューマニティーズ学会の発表者の動向（＋Palladioの使い方）

デジタル小技デジタル人文学

デジタル・ヒューマニティーズ（DH）学会といえば、ADHO (Alliance of Digital Humanities Organizations)で開催している年次国際学術大会が最大級です。「デジタル・ヒューマニティーズ」を冠するようになったのは2006年パリ大会からですが、その前から、欧州と米国での合同カンファレンスが開催されてきました。ADHO結成後は、カナダ、オーストラリア、日本等々、各地でDH学会が設立されてこれに参画するようになっていったのでした。

ADHOは他言語多文化主義に力を入れていて、その流れから、欧州-北米-その他地域というルーティンでDH学会を開催しようということになり、2015年にはシドニー、2018年にはメキシコシティ、という風に、欧米外で開催されてきました。特に2018年のメキシコシティの大会は、中南米からの発表者が増えたという点で、開催した意義は大きかったのだろうと思います。

では、そのような学会の発表者は、一体どういう国・地域から参加していたのか？ということは、やはり気になるところでしょう。実は、これを調べるためのデータはGitHubにて提供されています。こちら⇒https://github.com/ADHO/ を見ると、2016-2018の発表論文のデータが公開されていて、そのうち、2017年大会以外はTEI/XML準拠のデータです。TEI/XML準拠ということは、「著者のメールアドレスだけを取り出す」「メールアドレスが.comドメインなら代わりに所属情報を取り出す」といったようなことが（データがきちんと入っていれば）DOM操作で確実にできます。では、2019, 2020はどうでしょうか。これは、それぞれの学会サイトでTEI/XML準拠の発表論文データがダウンロードできるようになっていて、簡単なスクレイピングプログラムを走らせればすべて入手できます。なお、2017年に関しては、htmlデータしかないので、メールアドレスはmailto:を探して見つけられるとしても、所属情報を探し当てるのはちょっと難しいです。

ちなみに、なぜ発表論文データがTEI/XMLで存在しているのかというと、ADHOのDH会議では、TEI/XMLで提出させているのです。もちろん、ワード文書からTEI/XMLファイルを生成するコンバータのようなものを提供していて、単純なものであればそれで大体間に合います。発表原稿提出時はちょっと面倒ですが、後々、コミュニティの在り方を考えたり、それをどう発展させるかという議論を行うにあたっては、様々な観点からのエビデンスの提供元として非常に有用です。みんなの少しの手間が分野全体を支える力になるという一つの例と言えるでしょう。

国別延べ発表者数のデータ (2016-2020)

さて、そのようにしてデータを入手したら、メールアドレスと所属情報から、とりあえず、「どこの国の組織からどれくらい発表者が来ているか」というデータを作ってみます。基本的に、国別ドメインで分けるという大雑把な分け方をしてしまいましたが、Python3 のBeautifulsoupを使えば割と簡単にできます。<teiHeader>の中の<titleStmt>の中の<author>の中に<affiliation>とか<email>等のエレメントが入ってますので、<email>のテキストデータからトップレベルドメインを取りだして、それが国別ドメインならそのまま国としてカウントして、.comなら<affiliation>のデータをみて国を判定して、国別ドメインに振り分け、最後は .eduや.orgを.usにカウントして…ということで、できあがったのが以下のCSVファイルです。

ADHOConf/DHConf2016-2020_presenters.csv at main · knagasaki/ADHOConf · GitHub

　なお、カウントしている数字は、1つの発表で10人発表していたら10人、そのうち米国が2名でドイツが8名なら、1つの発表で米国2件、ドイツ8件、という数え方になります。また、今回は人物同定をしていないので、同じ人が3件の発表に共著者として名前を連ねていたら3件という風に数えています。ですので、この数字から見えるのは、それぞれの国の研究の規模感のようなものと考えていただくとよいかもしれません。

プログラム自体も公開すると十全なのですが、あまりきれいに書いていないので、データのみ公開ということにさせていただきます。

ちなみに、各年の開催地は以下の通りです。

2016年　ポーランド・クラクフ
2017年　カナダ・モントリオール
2018年　メキシコ・メキシコシティ
2019年　オランダ・ユトレヒト
2020年　カナダ・オタワ（開催はオンライン）

国別延べ発表者数の推移 (2016-2020)

こういう数字があると、たとえば以下のようなグラフをエクセルで簡単に作ったりできますが、

f:id:digitalnagasaki:20210526005917p:plain

米国が基本的に多くて、イギリス・カナダ等の英語圏がやはり強いけど、ドイツがそこに割って入っているとか、フランスも多いけどオランダも意外と多いとか、色々なことが見えてきます。ちなみに、2019年の採択率が40%くらいでしたので、裾野としてはこれの2倍くらいと考えていただくといいかもしれません。日本も一応、5年間で延べ100人を超えるくらいの研究者がここで発表された研究に関わってきているようですね。

国際共同研究ネットワークの状況 (2016-2020)

このような国別データがあると、次に気になってくるのは、「国際的な研究ネットワークの図がここから作れるのではないか？」ということですね。これもデータをちょこちょこいじるとそれらしいものを作ることができます。要するに、先ほどのデータとプログラムを用いつつ、「一つの発表について、複数の国の著者が連名していたらその組み合わせを取り出す」というプログラムを作ってみるのです。そこで国別のデータは作れます。しかしそれだけでは面白くありません。ここまできたら地図にのせてネットワークを描きたいですね。たとえば以下のようなものです。

f:id:digitalnagasaki:20210526003026p:plain

そこで、もう一工夫です。今回は国別ドメインを用いてデータを作っていますが、そうすると、世界の首都の位置データ Location Data of World Capitals - ASTI アマノ技研と組み合わせることで、各国の首都の地図座標を与えることができます。

そうすると、以下のようなデータを作れることになります。

ADHOConf/dh_collab.tsv at main · knagasaki/ADHOConf · GitHub

これを地図に載せたいわけですが、ここで出てくるのが Palladio です。スタンフォード大学で開発・公開してくれているWebアプリで、自分が作ったデータの簡単なネットワーク化や地図上での表示などができます。

とりあえず、やってみましょう。まずは「Start」をクリックしてみます。

f:id:digitalnagasaki:20210526003911p:plain

次に、フォームに、上記のdh_collab.tsvの内容をペタっと貼り付けて「Load」をクリックします。

f:id:digitalnagasaki:20210526004040p:plain

そうすると、以下のような画面になります。ここで、データを色々操作することになるのですが、とりあえず、地図にのせてネットワークを書くことを目標にしますので、「map」タブをクリックしましょう。

f:id:digitalnagasaki:20210526004222p:plain

そうすると、地図に載せるレイヤーを編集できるようになりますので、ここで「New layer」ボタンをクリックします。

f:id:digitalnagasaki:20210526004336p:plain

ここで、先ほど「Load」したデータをレイヤーとして表示できるように設定するのです。操作が必要な箇所は赤ペンで示していますが、文字入力が必要なのは「Name」の項目だけで、あとはマウスなどで選択できるようになっています。色に関しては自分で適当に選んでみてください。一通り設定したら「Add layer」ボタンをクリックしてください。

f:id:digitalnagasaki:20210526004645p:plain

そうすると、いきなりもう、以下のようなネットワークが表示されてしまいますね。ちょっとあっけなくてびっくりしますね。

f:id:digitalnagasaki:20210526004946p:plain

ネットワークのノードにカーソルをあてると、たとえば以下のようになりますので、2016-2020のDH会議で行われた研究発表においては、ドイツと他国組織の研究者との間に222件の共同研究のつながりがあった、ということになります。

f:id:digitalnagasaki:20210526005159p:plain

拡大縮小したりドラッグしたりして他にも色々な情報を見ることができますので、よかったら色々試してみてください。

2021-03-13

3D×紙の繊維×漢字字形：イベント盛りだくさんな土曜日でした

3/13（土）は、参加したいイベントが盛りだくさんな日でした。

なんとか少しでも参加できたのは、3Dと紙の繊維と漢字字形を扱う3つのイベントでした。他にも日本語コーパスのイベントと舞台芸術アーカイブのイベントがありましたが、残念ながら、これは参加できませんでした…。

特に3次元データと紙の繊維のイベントで共通しているように思われたのは、人文学において新たに取り込もうとしている認識の様式をどのようにしてこれまでの文脈のなかで共有可能な言語、あるいは記号に置き換えるべきか、という点でした。3次元データイベントの方では、ディスカッションの時間に、考古学における計測と観察の関係についての議論等で特にそういう話が出ていたように思われました。一方、紙の繊維のイベントの方では、とくに、舟見一哉氏の発表でそういった問題意識が丁寧にまとめられていたように感じました。後者のイベントは、実践女子大で入手した VHX7000という高精細マイクロスコープで紙の繊維を観察してその顕微鏡画像から資料に含まれる事実を解明しようとする私立大学ブランディング事業のシンポジウムということのようでした。すでに佐藤悟氏が国文学研究資料館のイベントで発表をしておられたことがあったと思いますが、今回は色々な論者による様々な観点からの発表がずらっと並んでいてなかなか壮観でした。紙の繊維のイベントの方は、発表レジュメがWeb公開されているのでそちらでその一端を知ることができると思います。舟見氏の発表に限らず、全体として非常に面白いシンポジウムであり、レジュメ資料もそれなりの情報量がありますのでこれは読むことをおすすめしたいところです。ただ、舟見氏の発表はスライド資料がわかりやすく充実していたように思われまして、あれも公開していただけるとうれしいなあ…などと思ったりしたところです。

一方、漢字字形の件というのは漢字文献情報処理研究会における上地宏一氏によるGlyphWikiについての発表を指しています。こちらは新しい認識の様式を共通化して取り込む、という点について、機械可読・変形可能な漢字の部品を対象として取り組んだと言うことができるように思われるが、なんと2001年には、「部品で漢字を表現するシステム」としてのKAGEシステムの中核部分を実装していたとのことです。（この件はリアルタイムに知っていましたが、年代はもう忘れてしまっていたので確認してみたのでした。）

一度、そのようにして機械可読・変形可能な漢字の部品が共有されたことにより、このシステムはGlyphWikiという漢字字形共同作成システムへと発展します。漢字の部品は言葉を表現するための要素ではありますが、言葉では表現しきれない情報も、機械可読・変形可能な漢字の部品として共有できるシステムを誰もが利用可能になったことで、それまでの様式を超えた情報交換も可能になった、という点が非常に面白いところです。ちなみにこの　GlyphWikiは、10年以上継続運用されてきた結果、東アジアの漢字マニア／研究者の間ではデファクト標準になっていて、海外で漢字の議論をしているとしばしばこれが字形共有基盤として出てくるようなものなのですが、トップ投稿者は49万文字、上位からみて第30位でも11642文字を投稿しているとのことで、相当に広まっていることが想像されます。漢字を作成するためのエディタが優れていて、簡単に新たな漢字字形を作成できる点と、部品として使えるフォントのライセンスがフリーであるという点が受容されているところなのでしょう。

さて、こうなってくると、紙の繊維の画像も、言語化を超えた次元でなんとかできないのか、という気もしてきます。となると、今はディープラーニングによる画像認識が使えないのだろうか…というテーマは、なんとすでに明日の紙の繊維のシンポジウムで中村覚氏による発表があるそうです。すでにレジュメは公開されていますが、発表の方も気になるところです。

というようなことで、人文学においても研究における認識の様式が、今後しばらくの間、様々な局面で新たな状況への対応が必要になっていきそうな雰囲気です。 @yhkondo先生の以下のツィートを拝見して、まったく同感だと思ったところでした。

二つのシンポジウムを見たが、超高精細4Kデジタルマイクロスコープにしても、古典語全般に及ぶ通時コーパスにしても、文系の研究にも最新のテクノロジーが必須になってきたことを改めて実感した。
— yhkondo (@yhkondo) 2021年3月13日

それはそれとして、本日は期せずしていくつものイベントを並行して拝聴することになりましたが、エジプトに行ったり敦煌に行ったり英国図書館に行ったり、そうかと思えば高山寺に潜り込んでみたりイェール大学やらブラウン大学に行ってみたり、中国の大学のやや厳しい雇用事情を知ってみたりと、フィールドとしての人文学の多様性を実感したというか、世界一周旅行をしたような気分になってしまいました。熊倉和歌子氏の「期せずして補修前の遺跡の姿をVR保存することになってしまった」というエピソードも臨場感を与えてくれてわくわくしたものでした。こういうたくさんの話を家で聞けるというのは、一過性のものかもしれませんが、直接お会いできない残念さはあるものの、オンラインゆえの貴重な体験でもあるかもしれないと思いながら余韻に浸っているところです。

2021-03-11

「人間文化研究情報資源共有化研究会」への期待

デジタル人文学オープンアクセス

明日、3/12（金）は、デジタル人文学／人文情報学に関する重要なイベントが2つあります。片方は人文学の研究データの基盤の話、もう片方は研究データをどのように展開するか、というテーマを扱うようで、この二つが重なってしまうのはなかなか残念なことなのですが、特に年度末はよくあることなので、それはそれとしてなんとか対応するしかありません。

しかしながら、ただ参加するだけなら両方視聴すればよいのですが、今回はそのうちの片方の国際シンポジウム「古典のジャンルと名所－デジタル文学地図の活用」でコメンテイターをすることになったので、そちらをきちんと拝聴するつもりであり、そうすると、もう片方はあまり耳を傾けることも議論に参加することもできないだろうと思います。しかしながら、人文学の将来にとっては非常に重要なプロジェクトが開催するイベントなので、話を聞くことはできないにしても、期待するところだけでもお伝えしておかねばということで、関係者の人がこちらを読んでくださることを願いつつ、以下に少し書いておきたいと思います。

参加できない方のイベント、というのは、第16回人間文化研究情報資源共有化研究会のことです。人間文化研究機構という、国内トップクラスの国立人文系研究機関を束ねる組織が進める、人文系の研究データを共有できるようするという事業であると個人的には理解しております。それぞれの所属機関が公的資金を投入して構築した貴重かつ有用な研究データを大量に蓄積しており、さらに、それらを横断検索できるようにしているのが統合検索システムnihuINTです（多分）。単なる検索だけでなく、地図年表上での検索結果のプロットなど、現在の技術でそれほど手間をかけずにできそうなことは大体実現されていて、お手本のようなサイトの一つです。今後も色々拡充されていくのだろうと思いますが、ぜひがんばっていただきたいところです。

そこで、これはあくまでも外野の勝手な意見というか気持ちなので実現可能性などを考慮しているわけではないのですが、拡充の方向性について、個人的には色々期待するところがあります。わがままというかお節介というか、実際に事業を推進しておられる方々には大変恐縮なのですが、そのうちの少しだけでも、あくまでも個人的な立場として挙げておきますと、

個人的な期待その1

まず、現在、研究データと言えば、オープンアクセスリポジトリ推進協会（JPCOAR）がJPCOARスキーマというものを作って研究データをリポジトリに載せることを薦める活動を推進しているようです。もちろん、JPCOARにも様々な経験者・知恵者がおられると思うのですが、今のところ、だからJPCOARスキーマに準拠して研究データをデポジットしよう、という話は人文学研究者の間からはまだあんまり聞こえてきません。一方で、こういうものは経験がものを言う場面もあり、事例の積み重ねが重要になる局面もあるでしょう。人間文化研究機構の方での研究データの横断検索やそれを実現してきた実績が、すでにJPCOARの活動にも反映されているならよいと思うのですが、もしそのあたりがまだそれほどでもないのであれば、人文学研究者を研究データのオープンアクセスリポジトリに近づけるためのノウハウを色々お持ちなのではないかと思いますので（しかしながら、よくある話として、ご自身の特長についてあまり言語化・自覚ができておられないかもしれないので）、対話の場などを適宜設けて、うまく連携していただければと思っているところです。

個人的な期待その2

それから、色々便利なものを作ってきてくださっているところですが、便利なものを提供するサービサー側にとどまってしまうと、色々な面で大変（書くと長くなるので省略します）ですので、各機関の研究者はもちろんですが、それだけでなく、利用する研究者側でも参加できるような仕組みが提供されるとよいのではないかと思っております。そうすると、利用者側の当事者意識を高めることにもつながって、結果として、大学共同利用機関としての存在意義を深めることになるでしょうから、機関としても、人文学研究者全体としてもよい方向が一つできるのではないかと思うのです。なお、そんなことわかってるし当然計画している、かもしれず恐縮ですが、外野からはそういう議論や進捗の内実もわかりませんので、その点はご容赦ください。

具体的には、まあ色々ありますが、ごくわかりやすい例で言えば、CiNiiの名寄せ報告システムみたいな簡単なものでもよいのではないかと思います。データを典拠データベースと紐付ける、くらいのことでも、つかいながら気がついた情報をちょこちょこ簡単に報告できるようになっていて、それがしばらく後に反映されるようであれば、データベースや事業への愛着を持ってくれる人も増えていくのではないかという気がします。

また、システムだけでなく、データの作り方も色々あり得るのではないかと思います。今はどうなっているかわかりませんが、研究者個人が研究データをデポジットできるマイ・データベースという仕組みを計画しておられた時期もあり、現在はむしろ JPCOARの方でデポジットの部分は担ってもらえるにせよ、そういうところで蓄積した知見を踏まえつつ、ユーザ志向のメタデータ集約システムのようなものを構築していくという方向もあり得るでしょう。それも、かつてなら認証システムを自前で構築して…ということになって大変でしたが、最近は連携認証を使ったり、 WebブラウザのLocal Storageを使ったり、手間をそれほどかけずに済ませる方法も出てきていますので、何か工夫が可能なのではないかとも思います。 EUが支援する人文系研究データリポジトリCLARIN-ERICではシボレス認証＋独自認証という運用をしているようで、あるいは国立台湾大学で構築運用しているDocuSkyなども、そういう方向性を考える上では役立ちそうな気がします。

というようなことで、外野が勝手に思っていることを、少しだけですが書かせていただきました。リソースもパワーも経験も、本当にすごいものがあって、それはこれからのオープンサイエンス時代の人文学に大きな貢献が可能であると思っておりますので、まずはそれを自覚していただきたい、というのが気持ちのベースにありまして、とにかく、関係者のみなさま、これからもがんばってください。

2021-03-10

3D学術編集版：人文学の研究成果／研究環境としての3D構築

デジタル人文学

このところ、3Dに関する取り組みがデジタル・ヒューマニティーズの世界でも見られるようになってきました。この週末には人文学と3Dをテーマとしたイベントも開催されるようで、いよいよ盛り上がりが始まる気配を感じさせます。

ではデジタル・ヒューマニティーズにおいて3Dがどういう風になっているのか、ということをちょっと見てみますと、どうも最近、Susan Schreibman先生（今はオランダのマースリヒト大学）がかなり凝っておられるようで、充実した論文を2つ、Costas Papadopoulos氏とともに2019年にオープンアクセスで刊行しておられます。Towards 3D Scholarly Editions: The Battle of Mount Street Bridge と Textuality in 3D: three-dimensional (re)constructions as digital scholarly editions なのですが、前者は具体的な事例を踏まえた実践論、後者は方法論に重きをおいた論文のような感じです。

Susan Schreibman先生と言えば、アイルランド文学研究をバックグランドに持つデジタル・ヒューマニティーズの研究者であり、デジタル・ヒューマニティーズという言葉を（おそらく）初めて使った A Companion to Digital Humanitiesというこの分野の基本書（現在はこれの改訂版が出ています）の3人の編者のうちの一人であり、TEI (Text Encoding Initiative) にも力を入れていて、学術編集版（いわゆる校異本・校訂本）の表示システムであるVersioning Machine の開発プロジェクトを率いた人としても知られています。日本にも何度かいらっしゃってDHに関する講演やTEIのワークショップを開催してくださったりしました。コロナ前は世界中を飛び回っておられて、学問的にも地理的にも幅広い視野でデジタル・ヒューマニティーズに取り組んでおられる研究者の一人かと思います。

さて、その Schreibman先生が、しばらく前から3Dに取り組んでいる、ということになれば、これは期待せざるを得ません。すでに上に挙げた2つの論文で充実した成果報告がなされていますので、詳しくはそちらをご覧いただけたらと思いますが、ざっと見ての現在の印象を少しだけメモしておきたいと思います。

基本的に、上記の研究は、それまでSchreibman先生が取り組んできたテキストによる学術編集版、つまり、いわゆる校異本とか校訂テキストのような、確かなトレーサビリティを含む学術研究に耐え得る信頼性を持った版を3Dで作るとしたら、換言すれば、これまでの学術編集版におけるテキストを3Dに置き換えるとしたらどう考えるべきか、という問題に取り組んでいるように思われます。

テキストにおける学術編集版というのは、テキストならではの抽象性・捨象性によってずいぶん楽になってはいるものの、書かれていることを学術的な証拠として用いるためにはどうすべきかという、紙媒体の時代、とりわけ活版印刷出現以降の苦闘の歴史が、デジタル媒体の登場により戦線拡大してしまい、Schreibman先生も注力してこられた TEI (Text Encoding Initiative) ガイドラインなどは、その課題にがっぷり四つに組んできたという経緯があります。多様な注釈や文脈情報をテキストでもその他の様々なメディアでも組み込んでしまえるという利便性をどう活用するか、といった拡張的・開放的な課題だけでなく、それまでは暗黙的に共有されてきた曖昧さをどう表現し、それをどう受容するか・されるか、という、いわば内省的な事柄も、デジタルになってから、より重要な課題になっています。そのようなデジタル学術編集版の（30年ほどですが）伝統を踏まえて、研究に耐え得る3Dの版を作るとしたら…ということで、テキスト研究での課題を援用しつつ色々な検討が行われているようです。そのあたりの検討は、さすがに読み応えがあります。そこで参照されている関連研究も含めて、ぜひ読んでおきたいところです。

実装に関しては、プラットフォームが安定しないためにテキストに比べて寿命が短すぎることが課題としてあげられていますが、しかしながら、デファクト標準に沿っておく方が内容に注力した議論ができるということで、現在は Unityを使っておられるようです。Unityはビデオゲーム開発のためのゲームエンジンとして100万人以上の開発者（ゲーマをする人ではなくて作る人）が使っているのだそうで、3D環境を構築する上でとても便利なのだそうです。もちろん、広く採用されているがゆえに作り方・使い方を知っている人が多く解説文書も多い、ということもあります。

この種のものとしては、ある時期、Second Lifeが広く使われていた時期がありましたが、価格設定の変更で教育利用の優遇措置がなくなったのでほとんどの研究プロジェクトが消滅した、とのことです。これもなかなか残念なことです。

ちなみに、人文学での3Dの利用には、個々の事物のデジタル複製を作成して閲覧用としたり、計測に利用したりと、様々な利用方法がありますが、そういう意味で、ここで言う学術編集版のための3Dの利用、というのは、そういった色々な使い方のなかの一つとみることもできるでしょう。

さて、このようにして3Dの学術編集版を作ろうとすると、時系列を入れざるを得ず、結局4Dになってしまうようです。4Dミラーワールド、という話は、ヨーロピアーナのリーダーがデジタル文化資料の近未来として描いていたことでもありますので、欧州各地でそういう方向に向かおうとする雰囲気ができつつあるのかもしれません。

というわけで、ここでもやはり3D＋時系列としての実質的な4Dモデルが作成されます。題材は、1916年アイルランドでのイースター蜂起のさなかの水曜日、マウント通りが運河を越える橋で起きた戦闘の経過です。Schreibman先生は、このプロジェクトの前には Letters 1916-1923という、この時期に書かれた書簡群をクラウドソーシング翻刻するプロジェクトを率いておられたので、そちらでの成果を継承しておられる面もあるのかもしれません。

f:id:digitalnagasaki:20210310001928p:plain — Letters 1916 の成果の一部

3D空間をどのように構築するか、ということは、軍事史家とのやりとりの中で決めていったようで、テクスチャをなるべくきちんと表現することや、アバターを登場させないようにすることなど、読者（閲覧者）がこの学術編集版をどう理解するか、かれらにどう理解させるべきか、という観点から検討が行われたようです。他にも、構築にあたっての色々な検討は、学術編集版のあるべき姿を考える過程として興味深いもので、時間があればぜひ読んでみていただきたいです。

このようにして、当該地区の3D地図をUnity上に構築し、そこに研究資料として得られた情報を展開していき、時空間の中でそれらの情報を確認していけるようにする、というのが、この3D学術編集版がもたらす基本的な要素のようです。このことが、史料批判も含めて様々な可能性をもたらしてくれるであろうことは、門外漢でも期待してしまうところです。

そのようなことで、雑ぱくな感じになってしまいましたが、デジタル・ヒューマニティーズにおける最近（といっても2年前ですが0の3Dの状況の一つとしてご紹介させていただきました。

ちなみに、私も、2017年くらいからUnity使って3Dデジタル学術編集版を作りたいと考えていたのですが、この学術編集版の話を聞いたとき、（2019年のユトレヒトでのDH学会のパネルセッションで知ったのですが）、私の考えていたものとはまったく観点もコンセプトも違っていて、3Dが導入されると学術編集版もかなり多様化しそうである、と思ったことでした。私が考えていたものというのは、その後も時間も予算もなく、なかなか進まないまま現在に至り、このままお蔵入りしてしまうのかな…と思っているところです。