この5年ほどのデジタル・ヒューマニティーズ学会の発表者の動向(+Palladioの使い方)

デジタル・ヒューマニティーズ(DH)学会といえば、ADHO (Alliance of Digital Humanities Organizations)で開催している年次国際学術大会が最大級です。「デジタル・ヒューマニティーズ」を冠するようになったのは2006年パリ大会からですが、その前から、欧州と米国での合同カンファレンスが開催されてきました。ADHO結成後は、カナダ、オーストラリア、日本等々、各地でDH学会が設立されてこれに参画するようになっていったのでした。

ADHOは他言語多文化主義に力を入れていて、その流れから、欧州-北米-その他地域というルーティンでDH学会を開催しようということになり、2015年にはシドニー、2018年にはメキシコシティ、という風に、欧米外で開催されてきました。特に2018年のメキシコシティの大会は、中南米からの発表者が増えたという点で、開催した意義は大きかったのだろうと思います。

では、そのような学会の発表者は、一体どういう国・地域から参加していたのか?ということは、やはり気になるところでしょう。実は、これを調べるためのデータはGitHubにて提供されています。こちら⇒https://github.com/ADHO/ を見ると、2016-2018の発表論文のデータが公開されていて、そのうち、2017年大会以外はTEI/XML準拠のデータです。TEI/XML準拠ということは、「著者のメールアドレスだけを取り出す」「メールアドレスが.comドメインなら代わりに所属情報を取り出す」といったようなことが(データがきちんと入っていれば)DOM操作で確実にできます。では、2019, 2020はどうでしょうか。これは、それぞれの学会サイトでTEI/XML準拠の発表論文データがダウンロードできるようになっていて、簡単なスクレイピングプログラムを走らせればすべて入手できます。なお、2017年に関しては、htmlデータしかないので、メールアドレスはmailto:を探して見つけられるとしても、所属情報を探し当てるのはちょっと難しいです。

ちなみに、なぜ発表論文データがTEI/XMLで存在しているのかというと、ADHOのDH会議では、TEI/XMLで提出させているのです。もちろん、ワード文書からTEI/XMLファイルを生成するコンバータのようなものを提供していて、単純なものであればそれで大体間に合います。発表原稿提出時はちょっと面倒ですが、後々、コミュニティの在り方を考えたり、それをどう発展させるかという議論を行うにあたっては、様々な観点からのエビデンスの提供元として非常に有用です。みんなの少しの手間が分野全体を支える力になるという一つの例と言えるでしょう。

国別延べ発表者数のデータ (2016-2020)

さて、そのようにしてデータを入手したら、メールアドレスと所属情報から、とりあえず、「どこの国の組織からどれくらい発表者が来ているか」というデータを作ってみます。基本的に、国別ドメインで分けるという大雑把な分け方をしてしまいましたが、Python3 のBeautifulsoupを使えば割と簡単にできます。<teiHeader>の中の<titleStmt>の中の<author>の中に<affiliation>とか<email>等のエレメントが入ってますので、<email>のテキストデータからトップレベルドメインを取りだして、それが国別ドメインならそのまま国としてカウントして、.comなら<affiliation>のデータをみて国を判定して、国別ドメインに振り分け、最後は .eduや.orgを.usにカウントして…ということで、できあがったのが以下のCSVファイルです。

ADHOConf/DHConf2016-2020_presenters.csv at main · knagasaki/ADHOConf · GitHub

 なお、カウントしている数字は、1つの発表で10人発表していたら10人、そのうち米国が2名でドイツが8名なら、1つの発表で米国2件、ドイツ8件、という数え方になります。また、今回は人物同定をしていないので、同じ人が3件の発表に共著者として名前を連ねていたら3件という風に数えています。ですので、この数字から見えるのは、それぞれの国の研究の規模感のようなものと考えていただくとよいかもしれません。

プログラム自体も公開すると十全なのですが、あまりきれいに書いていないので、データのみ公開ということにさせていただきます。

ちなみに、各年の開催地は以下の通りです。

  • 2016年 ポーランド・クラクフ
  • 2017年 カナダ・モントリオール
  • 2018年 メキシコ・メキシコシティ
  • 2019年 オランダ・ユトレヒト
  • 2020年 カナダ・オタワ(開催はオンライン)

国別延べ発表者数の推移 (2016-2020)

こういう数字があると、たとえば以下のようなグラフをエクセルで簡単に作ったりできますが、

f:id:digitalnagasaki:20210526005917p:plain

米国が基本的に多くて、イギリス・カナダ等の英語圏がやはり強いけど、ドイツがそこに割って入っているとか、フランスも多いけどオランダも意外と多いとか、色々なことが見えてきます。ちなみに、2019年の採択率が40%くらいでしたので、裾野としてはこれの2倍くらいと考えていただくといいかもしれません。日本も一応、5年間で延べ100人を超えるくらいの研究者がここで発表された研究に関わってきているようですね。

国際共同研究ネットワークの状況 (2016-2020)

このような国別データがあると、次に気になってくるのは、「国際的な研究ネットワークの図がここから作れるのではないか?」ということですね。これもデータをちょこちょこいじるとそれらしいものを作ることができます。要するに、先ほどのデータとプログラムを用いつつ、「一つの発表について、複数の国の著者が連名していたらその組み合わせを取り出す」というプログラムを作ってみるのです。そこで国別のデータは作れます。しかしそれだけでは面白くありません。ここまできたら地図にのせてネットワークを描きたいですね。たとえば以下のようなものです。

f:id:digitalnagasaki:20210526003026p:plain

そこで、もう一工夫です。今回は国別ドメインを用いてデータを作っていますが、そうすると、 世界の首都の位置データ Location Data of World Capitals - ASTI アマノ技研 と組み合わせることで、各国の首都の地図座標を与えることができます。

そうすると、以下のようなデータを作れることになります。

ADHOConf/dh_collab.tsv at main · knagasaki/ADHOConf · GitHub

これを地図に載せたいわけですが、ここで出てくるのが Palladio です。スタンフォード大学で開発・公開してくれているWebアプリで、自分が作ったデータの簡単なネットワーク化や地図上での表示などができます。

とりあえず、やってみましょう。まずは「Start」をクリックしてみます。

f:id:digitalnagasaki:20210526003911p:plain

次に、フォームに、上記のdh_collab.tsvの内容をペタっと貼り付けて「Load」をクリックします。

f:id:digitalnagasaki:20210526004040p:plain

そうすると、以下のような画面になります。ここで、データを色々操作することになるのですが、とりあえず、地図にのせてネットワークを書くことを目標にしますので、「map」タブをクリックしましょう。

f:id:digitalnagasaki:20210526004222p:plain

そうすると、地図に載せるレイヤーを編集できるようになりますので、ここで「New layer」ボタンをクリックします。

f:id:digitalnagasaki:20210526004336p:plain

ここで、先ほど「Load」したデータをレイヤーとして表示できるように設定するのです。操作が必要な箇所は赤ペンで示していますが、文字入力が必要なのは「Name」の項目だけで、あとはマウスなどで選択できるようになっています。色に関しては自分で適当に選んでみてください。一通り設定したら「Add layer」ボタンをクリックしてください。

f:id:digitalnagasaki:20210526004645p:plain

そうすると、いきなりもう、以下のようなネットワークが表示されてしまいますね。ちょっとあっけなくてびっくりしますね。

f:id:digitalnagasaki:20210526004946p:plain

ネットワークのノードにカーソルをあてると、たとえば以下のようになりますので、2016-2020のDH会議で行われた研究発表 においては、ドイツと他国組織の研究者との間に222件の共同研究のつながりがあった、ということになります。

f:id:digitalnagasaki:20210526005159p:plain

拡大縮小したりドラッグしたりして他にも色々な情報を見ることができますので、よかったら色々試してみてください。