2022-09-21

人文学データにおけるジェンダーの記述手法がTEIガイドラインに導入されるようです

先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI （Text Encoding Initiative）というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、それを策定する団体のことでもあります。前者をTEIガイドライン、後者をTEI協会（Consortium）と言います。

このTEIガイドラインの詳細については、最近、日本語の解説書『人文学のためのテキストデータ構築入門』（文学通信）が出まして、アマゾンのKindleでも読めますので、よかったらぜひご覧ください。お金を出すのは大変だけどなんとかして読みたいという場合は、公開前提のレビューを執筆してもよいのであれば、「『人文学のためのテキストデータ構築入門』刊行記念レビューキャンペーン」から申込んでいただければ無料で読むこともできます（まだ少し枠が残っています。先着順です）。

www.amazon.co.jp

あるいは、レビュー書くのも大変だから避けたいけどなんとかしてTEIガイドラインについて知りたいという場合は、単にグーグルで「TEIガイドライン」で検索していただくと、上記の解説書に含まれている原稿の（改稿前の）大部分の原稿が論文やエッセイの形でWebで色々読めますので頑張って探してみてください。

さて、このTEIガイドラインでは、とにかく人文学資料のデータを「あとで機械処理しやすいように」記述するためのルールを様々に用意しています。これに準拠して記述しておけば、「この手紙はどこからどこにいつ出されたのか地図年表上にマッピングする」とか「この古典籍はどこの所蔵者の手を経てここに来ているのか」、あるいは「戯曲の登場人物達はどの幕で登場しどこで亡くなるか、そして亡くなってからも登壇発言するのは誰か」といったこと、さらには「校訂テキストの各対校本を脚注の校異情報から再建して各対校本のテキストを並べて読めるようにする」等々、色々なことを可能になります。（この書き方も含めて上記の解説書には色々なことが解説されています）

そのようなことで、「どういう要素をどのようにして記述するべきか」ということが常に議論され、その成果がガイドラインに反映されていきます。昨年、日本語のルビを記述するためのルールが導入されたことは記憶に新しいですね。近年は、コンピュータやネットの高速化・高度化により、様々な要素の記述手法が新たに追加されるようになり、ほぼ半年に1度の新規リリースが行われています。

次回リリースは10月の予定なのですが、そこでの目玉として先週のTEIカンファレンスで発表されたのが、ジェンダーの記述手法です。これまでも性別の記述はできていたのですが、生物学的性別とは異なる位置づけとしてのジェンダーは、別の記述手法を用意した方がよいということになり、これまでの<sex>というエレメント（タグ）に加えて<gender>が提供されることになりました。

<gender>が導入されたことで、たとえば、女性に生まれ変わったり気持ちまで女性になったりしたことのあるヴァージニア・ウルフの小説『オーランド―』の主人公は以下のように記述できることになったようです。

<person xml:id="orlando">
  <persName>Orlando</persName>
  <sex from="#ch1" to="#ch3" value="M"/>
  <sex from="#ch3" value="F"/>
  <gender from ="#ch1" to="#ch3" value="M"/>
  <gender from ="#ch3" to="#ch3b" value="NB"/>
  <gender from ="#ch3b" value="W"/>
</person>

ここでは、第三章までは身体的には男性でそれ以降は女性、ジェンダー的には、第三章までは同様だが第三章の途中までは不明瞭になり、第三章の途中からは女性になる、ということが記述できています。このルールを使って色々な人物や資料を記述すれば、面白いデータが作れるようになるでしょうし、そもそも、その点を意識しながらデータを作るようになれば、ジェンダーへの理解もこれまでとは少し違ったものになるのではないかとも思います。

<追記>

念のため追記しておきますと、この<gender>タグはTEIガイドラインでは必須のものではなく、利用するかどうかについては、あくまでも、タグ付けをする人やタグ付けの方針を策定する人の任意です。このタグが必要ないという場合も多いと思いますし、敢えてそこまでやらないということもあるでしょう。ただ、そういう選択肢が提示されているかいないか、ということが重要なポイントかと思っております。

それから、<gender>を採用することにした場合には、このタグは本文中に埋め込むことはおそらくはほとんどありません。文書中のどこかに人物情報を書いておき、そこに<gender>タグを記載することになります。そして、本文中には「人名」を指すタグとともにこの人物情報を参照する属性をつける形になります。たとえば、上記の解説書での事例では<back>の中の<listPerson>の中に人物情報が書かれています。こちらでそのサンプル（漱石書簡）が閲覧できます。たとえば上記の<persName corresp="#orlando">オーランドー</persName>氏の情報を指す場合は…という風になります。

</追記>

この件についての詳しい議論の経緯や情報は、メールマガジン『人文情報学月報』の10月号に掲載予定ですので、よかったらこれを機にぜひ『人文情報学月報』の読者登録（無料）をしてみてください。

2022-08-16

『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します

すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。このイベントは、参加費無料・要申込みです。

今回は、『人文学の…データ構築入門』の第一部、第二部のうち、TEIガイドラインに関する部分を中心にしてセミナーを実施します。Transkribusの話はしませんので、あらかじめご了承ください。

予定している内容は大体以下の通りです。

10:00-11:30 人文学のためのテキストデータ構築とTEIガイドライン
12:30-14:30 TEIガイドライン実践演習
14:45-16:15 続: TEIガイドライン実践演習
16:30-17:15 Susan Schreibman先生によるVersioning Machineに関する講義+質疑応答
17:15-17:30 セミナーのまとめと質疑応答

なお、今回は、特別ゲストとして、国際的なデジタル・ヒューマニティーズの定番の入門書として広く知られる『A Companion to Digital Humanities』と『A New Companion to Digital Humanities』新旧2冊の共編者の一人でありTEIガイドライン対応の校訂テキスト視覚化ソフトウェアVersioning Machineの開発者としても知られるオランダ・マーストリヒト大学のSusan Schreibman先生にVersioning Machineについての講義をいただきます。

参加申込みはこちらでお願いします。⇒ https://forms.gle/CNUYGz5esSzMSkQ3A

2022-08-09

京大OCW閉鎖の件に寄せて：これからの可能性だったものの一つ

京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア（OCW）」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。

基本的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基本的になまものの教育コンテンツを志向するものであり、それ単体で価値を持つ類のものというよりは、教育コンテンツであることをどこかが保証してくれることで意味を持ってくるものであり、それゆえに、教育コンテンツとしてどこかが裏書きをしてくれることが期待されるものであり、つまり、適宜のアップデートも必要になる。

さて、今時のOCWでは動画が公開されることも多いが、動画のアップデートというのは基本的に死ぬほど時間がかかって大変なものである。しかし、これをなんとかする一つのソリューションとしてIIIF(International Image Interoperability Framework)における動画アノテーションという技術仕様がある。残念ながらYouTubeには適用できないのだが、MP4動画であれば、公開されている動画を別のサイトで再生させ、その際に画面上（＋タイムライン上）に文字や画像、音声、動画をアノテーションとして付与することができるという、結構アレな技術仕様なのだ。もちろん、仕様としてアレ過ぎて、それを完璧に実装できるソフトウェアは存在しないのだが、現在、世界各地でぼちぼち開発が進められている。（詳しくはこちらの頁を見てIIIFのSlackに参加して、avチャンネルをみていただくと最新の開発状況を確認できる。IIIFは、基本的に「アノテーションの仕方（の技術仕様）」を決めるだけで、あとは世界中のみんなで仲良くそれにあわせた実装系を開発してね、という代物なので、そこで実現し得る多様な実装の一部を選び取って「ビューワ」を作成するのがIIIFデベロッパのお仕事の一つであり、世界中の、主に研究図書館やミュージアム等に所属するエンジニア達に、一部企業エンジニアも加わり、主にフリーソフトウェアを舞台にしのぎを削っている。

ということで、筆者らも、この技術仕様をなんとか使えるようにしたいという気持ちに加えて、OCWのような適宜のアップデートが必要なコンテンツの扱いにおいて可能性があるのではないか、ということも考え、結果として、IIIF動画アノテーションを実装した改良版Miradorというビューワを開発・公開した。これを用いて、2017年に筆者が京大で講演したOCW動画に対してアノテーションを付与し、2020年の状況に対応できるように追記修正したのである。ここでの追記修正は、京大サーバ上の動画はまったくいじることなく、ただ、JSONデータ（＝テキストデータ）で画面上の位置と時間を指定して文字や画像をオーバーレイしただけである。そのJSONデータを「どこかのサイトに置いたMirador」に読み込ませれば、追記修正された動画を表示できるようになるのである。このJSONデータは、ロジカルでありかつ非常に簡素であり、少し仕組みを理解できれば、人が手で書くことができるレベルのものである（私はこれを手で書いた）。（なお、このMirador改良版は、さらに改良を重ね、現在では、ELANとも互換性を持つに至っていることも追記しておきたい。）

このことは、いいことばかりではなく様々な問題を生じる可能性もあるものの、たとえば、IIIFアノテーションで追記修正を行うことにより、教育コンテンツ動画のアップデートの回数を減らせそうであるという点で、あるいはそもそも、動画だけではできない色々なコンテンツの追加やハイパーリンク化などを実現できるといった発展的な面でも結構面白いことになるのではないかと思ったりしたものであった。

というような見通しのもと、筆者の京大OCW動画をネタの一つとして色々育てていこうと思っていたのだが、これももしかしたらなくなってしまうのかもしれない…と思うととても残念なことである。関連サイトを拝見する限りでは関係者の方々の無念を感じるばかりで当方もつらくなっているが、京大はデジタルアーカイブや機関リポジトリにも力を入れているので、そちらの方で保存だけでもしてくれるのではないかと淡い期待をしている。いずれにしても、外からは何も見えないので、諸事、うまいところに落ち着いてくれることを祈るばかりである。

2022-07-31

人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

TEI デジタル人文学デジタルアーカイブ

https://bungaku-report.com/blog/2022/07/tei1.html

初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものです。日本語文化圏でも、TEI ガイドラインに取り組むにあたっては Web に様々な情報が各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていました。とはいえ、Web の海に浮かぶそれらは、論文であったり、Web コラボレーションシステムに組み込まれたサイトであったり、英語で書かれたTEI ガイドラインの部分的な翻訳や解説動画の日本語字幕など、どれも有用ではあるものの、どこから始めるべきか、どこまで確認・習得すれば実用しても問題ないのか、そもそも実用とはどういうことなのか、といったことがなかなかうまく把握できない状態でした。本書は、そのような状況に対して、最初にどこから始めればいいのか、どこまで深く取り組めばどの程度の有用性が出てくるのか、といった、TEI ガイドラインの総体的な把握の仕方について１冊のまとまった単行本という形で提示すべく用意されたものです。

その内容は、人文学、なかでもテキスト研究において国際的な共通言語を志向する形となっている TEI ガイドラインをめぐるこれまでの歴史と葛藤など、その取り組みとしての全体像を把握するための章が提供されており、続いて、そこで活かされるテキストデータを手書き文書から作成するための Handwriting Text Recognition（HTR）における最先端のソフトウェアの一つである Transkribus[2]の使い方のガイドと、それに加えて、実際の活用例が示されています。

この次には、そのようにして作成されたテキストデータを構造化するための基本的な手法についての解説が掲載されています。ここでは、かつてオックスフォード大学の DH を支え、現在はニューカッスル大学で中世英文学と DH の上級講師を務める James Cummings 氏がかつて作成した教材を、その基本的な枠組みを活かしつつ、日本語資料やその特性にあわせて改編したものが実践演習として提供されています。そして、用意された資料のマークアップを通じて、TEI ガイドラインに従ってテキストデータを構造的に構築していく際に必要となるパソコン操作のための効率的な手技と、人文学研究を前提としたデータ作成に際しての現代的なコンピューティングにおける基礎的な考え方の両方を習得できるようになっています。この教材で用いられているのは夏目漱石の書簡のデジタル画像です。漢字仮名交じりの合略仮名も含む筆致のテキストを、その筆致の特徴を活かしつつ利便性も高める形で構造化しようとするなら、様々な要素に配慮しながらマークアップをする必要があります。あくまでもチュートリアルであり、十全な成果が得られるものであるとまでは言えないものの、これを通じて人文学研究におけるテキストデータ構造化の基礎を習得できると思います。

なお、この夏目漱石書簡デジタル画像は、東北大学附属図書館から自由な再利用を可能とする利用条件で最近公開されたものです。すなわち、この実践演習、引いてはこの書籍は、デジタルアーカイブ公開画像を二次利用した成果物と位置づけることもできます。

また、書簡を構造化するだけではその意義や効果がわかりにくいこともあるでしょう。そのために、構造化テキストを、その構造に基づいて活用するための簡単なチュートリアルも用意されています。ここでは、XML エディタの機能を活用する方法や、XSLT という言語で簡単にテキストを変換処理する手法などを実践的に習得できるようになっています。

第三部は、様々な資料に対して TEI ガイドラインを適用した場合の事例研究の紹介です。日本の古辞書や財務資料、近代の資料や、Transkribus と TEI を組み合わせた自動人名抽出の手法など、様々なものが紹介されており、さらにデータを可視化する技術の事例紹介もあります。ここで、TEI を適用したことによりどのような方向で研究プロジェクトが発展可能なのか、というヒントを得ることができるでしょう。

第四部は、漢文仏典である大正新脩大藏経を構造化する取り組みであるSAT TEI化研究会による大規模マークアップを前提とした試行とその成果についての紹介です。大正新脩大藏経には様々なタイプのテキストが含まれており、校訂テキストとしての一般的な仏典の構造へのより深い構造化手法についての検討が行われるだけでなく、日本仏教文献や禅籍、仏教音義書等を対象としたマークアップの手法が検討され、その過程で任意の段落設定の手法や外字や割注、知識グラフとしての表現など、様々な課題と解決方法が提示されています。一つの叢書をめぐり、そこに含まれる実に多様な構造への対応のプロセスを読み取ることができる章がちりばめられており、ここでもテキスト構造化に際しての様々なヒントを得ることができるでしょう。

また、本書にはコラムが各所に配されており、実際にマークアップを行うに際しての考え方や、世界各地の TEI 準拠の事例紹介、それに加えて、著作権法改正に基づいて Google Books のようなサイトを作るための基本的な考え方などが紹介されています。それぞれに有益な情報として活用できる局面があるかもしれません。

本書を通じて、多くの読者は物足りなさを感じると思います。それは、テキストの構造化には様々な考え方があり、本書はそのうちのごく一部を扱っているだけに過ぎないからです。むしろ、より広く深い事例を扱う応用編が必要であり、そのような事例自体もより多く必要であることが、本書の刊行によって明らかになるということでもあります。つまり、この本は、あくまでも、ここから続く長い道のりの第一歩として位置づけられるものです。

本書がもたらし得るものは、冒頭に述べたように、TEI ガイドラインを利用したテキストデータの構造化に具体的に取り組めるようになるための入口でしかありません。日本語文化圏でこの入口が整えられたことにより、日本の人文学における多様な取組みやその成果が様々な意味で世界に開かれ、そして未来につながっていくことを期待したいと思います。

[1] http://bungaku-report.com/books/ISBN978-4-909658-84-5.html.

[2] https://readcoop.eu/transkribus/.

※この記事の初出はメールマガジン『人文情報学月報』第132号です。

2022-06-05

NDL Ngram viewerの正規表現検索が面白い

正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ？」という感じだと思います。

人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。

lab.ndl.go.jp

正規表現の「.」を試してみる

たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、さらに、新聞ごとにカウントしてグラフにしてくれます。

「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、そのあと分類してカウントしてくれるのはこのviewr独自の便利機能ですので、正規表現だけでそこまでできるわけではないという点はご注意ください。

ただ、それはともかく、正規表現での検索ができています。たとえば、上の例を見てみると、正規表現では「.」（ドット）は何らかの１文字を意味しますので、「..新聞」では、何らかの文字が２つ続いた後に「新聞」という文字列が続く４文字の文字列を検索していることになります。そうすると、3文字はどうか、4文字はどうか、という風に探してみてもいいでしょう。

そうすると次に気になるのは、「震災」という言葉の明治大正期の使われ方です。試しに「..震災」と、２文字が震災の前にくる文字列検索してみると以下のようになります。

ここで、「東京震災」を見てみると、

1926年に 3440件と突出しています。同じ年には、「大正震災」1150件、「臨時震災」1011件、となっています。

一方、「..大震災」で検索してみると、「関東大震災」がやはり圧倒的に多いですね。

ただ、検索対象が主に出版物であるためか、震災の年よりも翌年以降が多く、また、1935年、1940年に二つの山がありますね。ただ、そもそもその年の出版物（というよりこのデータベースが収録している資料）の多寡で母集団が変わっている可能性もありますので、時系列で一つの単語を追ってみたいときは、以下のボタンをONにして、出現頻度/総Ngram数でみてみるとよいかもしれません。

そうすると、以下のように、割となだらかな感じになります。

他に似たような単語が使われたケースはないのかな…と思って、「大震災」の前につける「.」を一つずつ増やして検索してみると…五文字付与してみたところで、「九月一日の大震災」というのが割とヒットしました。なるほど、という感じですね。

正規表現の「+」を試してみる

「.」だけでは芸がないので、もう少し正規表現を試してみましょう。「+」です。「+」は、前の文字を１回以上繰り返す、ことを意味します。これを用いると、たとえば、「.+大震災」で検索した時に以下のようになりました。

この場合は、先ほどまでのように文字の数をいちいち増減させなくてもざくっと探してきてくれますので楽ですね。（その代わり、細やかさは少し減りますが。）

また、「大」も外して「.+震災」で検索すると以下のようになりますので、

これはこれでまた若干の発見がありますね。

なお、検索結果頁の下の方を見ていくと、各単語の総出現頻度も並んでいるので、グラフに表示されないものも含めてチェックできてこれもとても便利ですね。

こうなってくると、他の正規表現記号も便利なのではないか…ということで、角括弧[...]も試してみましょう。

正規表現の角括弧`[`...`]`を試してみる

正規表現の角括弧[...]は、「各括弧内にあるいずれか１文字」を指します。たとえば、[あいうえお]と書いておくと、「『あいうえお』のうちのいずれかの１文字」を指します。ハイフンを用いると文字の領域を示すこともでき、[あ-お]と書くと、あ～おのいずれかの１文字、ということになりますので、この場合は[あいうえお]と同じ意味になります。

さて、というわけで、今度は「いずれか１文字」を検索してみたいのですが、さて、何かよい方法はあるでしょうか…？

ということで、ちょっと思いついたのは、「戦前に図書館がどのように扱われていたかを調べて見る」ということです。これによってすべてを確認できるわけではないですが、図書館について何かを行ったり言及したりする場合、「図書館を」や「図書館に」などの助詞が着くことが多いような気がします。そこで、角括弧の登場です。「図書館[にを]」というキーワードで一度に両方を検索できます。さらに、それに対して何かのアクションを行っていたことを検索するなら、上でやってきたことを、今度はこの検索語に続けて付与すればいいですね。たとえば「図書館[にを]」.+」とか。

さて、どうでしょうか…？

グラフだと図書館の設置に関する言及が結構みられますね。図書館を設け／図書館を設立／図書館を設置　といったものが比較的上位に来ていますね。

さらに、頁の下の方にずらっと並んだ検索語まで見てみると、もう少し面白い感じになりますね。

図書館に寄贈、というのが271件も出てきます。図書館に保存、も255件です。図書館を経営、というのも193件あります。さらに下の方にもちょこちょこ面白い表現が出てきます。

が、ここで、カタカナを忘れてはいけない、ということを思い出しました。「図書館[をにヲニ].+」としておくことで、カタカナも含めて検索できます。こうなると、今度は情報量の少ない結果がたくさん並んでしまってちょっといまいちですね。検索結果を集約する際に、カタカタとひらがなをまとめてくれる機能があるといいですね。 それはともかく、この結果を手がかりに、さらに色々な検索ができそうですね。まずは、続く文字を２文字だけに限定してみます。これは「.」を二つ並べて

図書館[をにヲニ]..

でいいですね。この結果は以下のようになり、上に貼り付けた画像の検索結果と似たような感じですが、検索結果一覧を見ていくと、やはり色々あって面白いですね。

ここで、図書館を作ることに関する表現が多いので、その表現の変遷をみてみましょうか。この場合、(...|...)を用います。「|」でorを表し、丸括弧内のいずれかの文字列を検索します。

正規表現の「(...|...)」を試してみる

というわけで、

図書館[をにヲニ](設立|設置|開設|創立|新設)

という検索語で検索してみると、以下のようになりました。

これはこれで面白いですが、やはり、カタカタとひらがなを集約しないと、ぱっとただけでは数の変遷はわかりませんね…。とりあえず、検索結果の数値をダウンロードできるようになっていますので、ダウンロードして自分でまとめてみるとよさそうですね。

というようなことで、NDL Ngram viewerのお試しでした。

ちなみに、正規表現は、かなり長く使われているいわゆる「枯れた」技術で、入門者むけ解説もあちこちのサイトにあります。おすすめはこのあたりです⇒「とほほの正規表現入門 - とほほのWWW入門」。

2022-04-18

今時の簡単なXML論文ファイル作成提出方法／デジタル・ヒューマニティーズ国際会議での事例

論文の本文をXMLで記述しよう、という取り組みは、世界的にはかなり進んでいるようであり、日本でもJ-STAGEが「全文XML」ということで推進中です。この7月に東京大学が開催予定の、国際デジタル・ヒューマニティーズ学会連合（ADHO）による国際学術大会 DH2022でも、全文XMLでの提出が求められています…が、この学会連合の場合、論文のXMLどころか、写本や碑文、楽譜などの内容のXML化にずっと取り組んできたコミュニティであるため、その種の技術に長けている人が、特に欧米には結構な数いらっしゃいます。そのようなコミュニティですので、以下のようなルーティンで、論文執筆者はXMLタグをまったく見ずに、しかしXMLで構造化された論文ファイルを提出できる仕組みが用意されています。その結果、毎回の発表論文のデータはすべて（2017年大会を除き）全文XMLで利用できるようになっています。（ここでのXMLはTEIガイドライン準拠のものですが、JATS/XML等にもおそらく自動変換できると思われます）。

論文執筆者の手順

さて、これを論文執筆者の手順の方からみてみますと、

論文執筆者は自分の投稿システムIDでXMLファイル作成システムにログイン
自分の名前・所属・発表タイトル等が入力された、MSワードかLibreOfficeのテンプレートファイルをダウンロード
MSワードかLibreOfficeでテンプレートファイルに本文・図・脚注・参考文献一覧などを記入
XMLファイル作成システムに再度ログインしてXMLファイルを生成してダウンロード
XMLファイルは画像ファイルや変換済みHTMLファイルなども含めてzipアーカイブ（拡張子は.dhc）としてまとめられてダウンロードされるのでそれを投稿システムにFInal Upload

という風になります。ですので、論文執筆者は、XMLタグをまったく見ずにXMLファイルを作成できているのです。

システムの裏側

このシステムの裏側ですが、JAVAで書かれたDHConvalidatorという、この会議のために作成されたソフトウェアがあります。この学会連合ADHOのGitHubアカウントで公開されているのですが、デジタル・ヒューマニティーズは学会連合でもGitHubアカウントを持っていてソフトやデータを公開しており、その一環という位置づけになっています。誰がコントリビュートするのか、と言えば、欧米のDH分野には、プログラミングにはまってシステム開発もできるようになってしまう、いわゆる「作る人」が結構いて、そういう人たちに大学院～ポスドクの間に学会連合が謝金を出しながら作業していただく、というのが割と一般的です。そうすると、「自分たちが使いたい物を自分たちで作る」形になりますので、仕様書作成とか作りたいものの説明などの手間が激減しますので、頼む側は安くで作れて、作成者はお金をもらいながらスキルも身について人脈もできて、できあがるものもそんなに悪くない…という風になっています。さらに、学会を開催するたびにDHConvalidatorをセットアップして使う、となると、そのたびに作った人やメンテをしている人たちに色々おうかがいすることもでてきますので、人脈作りという意味では若手にはうってつけでしょう。このソフトウェアは汎用性が高く、次に述べるConftoolを使っている学会ならそのまま使えますので、実際に他の学会でもこれを利用して論文をXMLで提出させるところがあるようです。

次に、データ構築の効率化について少しみておきましょう。 ADHO関連学会では、学会開催時の投稿管理システムとしてConftoolというサービスを使っていますが、このシステムではAPIで外部から認証できるようになっており、DHconvalidatorは、この認証APIを用いて認証したり、発表者の名前・所属・発表タイトルといった基本的な情報を取得して自動的にXMLで記述してくれます。つまり、一度投稿システムに自分の情報を登録すれば、そこから一気にXMLのデータまでできてしまいますので、ユーザ側の操作が少なくてなかなか親切です。

実際の変換に際しては、DOCX等の色々なファイル形式をXML等のファイル形式に変換してくれるOxGarageというサービスがありまして、デフォルトだとこのAPIを用いて対象ファイルをXMLに変換しています。

そういうものだと設定は結構面倒なのではないか…と思われるかもしれませんが、今時の仕組みですので、dockerで全部入りのものが動かせるようになっています。実は、dockerに頼らずにやってみようかとしばらくあれこれ試してみたのですが、結局挫折しました…。で、dockerで動かした上で、Apacheのリバースプロキシで外部から使えるようにしています。

まとめ

というようなことで、世の中ではXMLを使うべしとかXMLはもう古いとか色々おっしゃる向きもありますが、基本的に、楽な方に、使いやすい方に流れていきますし、「作る人」が一定数確保できている分野では、色々便利なものが提供されるようになる、ということでもあります。「作る人」のみなさんを大切にしましょう、ということで今夜はここまでとしたいと思います。

2022-03-30

日本発のプレプリントサーバJxivに論文を載せてみました

オープンアクセス

いわゆる10兆円ファンドの運用主体としてますます注目を浴びる科学技術振興機構（JST）が、最近、プレプリントサーバの運用を開始したそうです。その名もJxiv。すでに海外にいくつか著名なプレプリントサーバがあり、国内でも筑波大学が筑波大学ゲートウェイというプレプリントサービスを含む包括的なサービスを開始していることもあり、どういったところで個性や存在意義を打ち出していくのか、気になるところです。とりあえず「誰でも投稿できる」「日本語論文でも大丈夫」「人文系でも大丈夫」というのが特徴になるような印象を持ちました。（間違っていたら申し訳ありません）

プレプリントサーバは、サイエンスの崇高な理念を体現する存在であり、オープン性を踏まえた知識循環の基盤となるものと認識していたところであり、また、それゆえに、そのラディカルなオープン性に親和性が高くない分野やワークフローなどにはちょっと縁遠いものかもしれないと思ったりもしていたところでした。

とはいえ、この種の動向は、1990年代から遠巻きに見ていただけで、なかなか自分で投稿するには至らず、しかしながら、いつまでもそうしていてもわかることは少ないので、よい機会だと思って、いずれ某雑誌に投稿しようと思って温めていた原稿を投稿してから考えてみることにしました。

もちろん、忘れてはいけないのは、「未発表論文であること」を投稿規定に掲げている論文雑誌は結構多く、プレプリントサーバで公開した時点で、投稿できる雑誌が結構減ってしまう、という点ですが、まあ、どこかに投稿できるはずだと思ってとりあえず投稿してみたのでした。

ここでまず、正直に申し上げると、Jxivが公開された時点では、この「投稿ガイドライン」というタブやそこに掲載されたPDFファイルは、いずれも「ガイドライン」となっているだけで、ここに投稿に関する必須事項が記載されているとは気がつかず、まあガイドラインだから守っても守らなくても掲載はできるだろう…と甘くみて投稿してみたところ、色々足りないということで丁寧に確認していただき、いったん差し戻されました。

これは、「ガイドライン（当時の名称）」をちゃんと読めば書いてあったことですので、みなさまにおかれましてはきちんと読むことをおすすめしますが、「ジャーナルに投稿する論文を投稿せよ」という話であるにも関わらず、自分が投稿するジャーナルのフォーマットで投稿したら、ダメ、ということでしたので、このあたりの「ジャーナル」の定義や位置づけなどは、どこかの分野に沿ったものなのかもしれないとも思ったところでした。とくにびっくりしたのは、「利益相反に関する開示」の記載が論文中に必須だったことで、これは人文系の日本語論文ではそんなにみないかなあ…と思ったのでした。日本語論文の論文中に書く場合の書き方もよくわからなかったので、ググって調べてみました。ただ、利益相反の定義は学会によって異なる場合もあるようで、学会、あるいはジャーナルとして、利益相反に関する開示を記載する基準を提示しなければ、あまり有用な開示はできないのではないか、とも思ったところでした。あるいは、人文系にも対応するということであれば、過渡的には、この記述は任意にしてもいいのかもしれないとも思ったところでした。

最初の方だったせいか、結構丁寧に対応していただいて、こちらとしても大変恐縮してしまったところではありますが、一方で、こういうチェックをすることで、1日あたり何本くらい処理可能な体制になっているのだろうか、というのもちょっと気になりました。

なお、差し戻された際に「これは「ガイドライン」という名称ではなく「投稿ガイドライン」にした方がよいのではないでしょうか？」と担当者にお伝えしたところ、今は「投稿ガイドライン」としていただいたようで、同じことを言ったのは私だけではなかったのかもしれませんが、いずれにしても、このあたり、手作り感があっていいですね。

というようなことで、最初の方で書いたことに少し戻るのですが、「未発表論文であること」と投稿規定に掲げている雑誌については、「ただしプレプリントサーバについてはその限りでない」というような文言を投稿規定に追記してもらわないと、今のところはプレプリントサーバを使うことはできなさそうですね。ちょっと投稿規定をググってみましたが、ちょっとググった限りでは、どこの学会も「未発表論文」を条件に挙げていました。既発表論文を査読・掲載してくれる雑誌、という言い方をすると、それはそれで色々問題がありそうですので、やはりプレプリントサーバを例外的な場として位置づけてもらうのが穏当なのだろうと思いました。

とはいえ、プレプリントサーバと言っても、結局、査読前論文が公開されてしまうのだとしたら、いくつか難しい問題が登場してきそうです。すでにプレプリントサーバをワークフローに組み込めている雑誌ではそのあたりを十分に議論した上でクリアできているということなのだと思いますが、やはり、一度公開されている論文に対して査読をするのは、査読者側の負担が少し大きくなってしまうのではないかというのは気になるところです。未発表論文への査読に比べて、査読の内容についての説明責任がよりオープンなものとなることが想定されるからです。もちろん、サイエンスの発展を願うならその方が理想的なのですが、そもそも査読という行為は負担が大きい割に具体的なリターンが少なく（本来は、学術の水準を維持するという大きな意味での極めて重要なリターンはあるのですが）、それがプレプリントへの査読ということになると、説明責任が重くなる分、査読の引き受け手がますます減るのではないか、というのはちょっと気になるところです。メジャーな分野ならそれでも大丈夫かもしれませんが、マイナー分野で潜在的査読者が少ないところだと、説明責任のプレッシャーを増やすことはちょっと難しい状況を生み出すかもしれない、と、少し心配になるところではあります。

それから、人文系のなかには、出版社に雑誌刊行を頼んで市井で販売しているところもまだあるように仄聞しておりますが、そうすると、プレプリントサーバに載せて原稿を公開すると売れなくなってしまうという心配が出てきてしまわないか、ということで、そういう雑誌はプレプリントサーバの話には乗ってこないかもしれないとも思いました。

これに加えてやはり気になるのは、J-STAGEであれほどJATS/XMLを推しているのに、Jxivは今のところJATS/XML等による全文XML投稿は受け付けていないようだ、ということです。技術的には、JxivはカナダのPKPが開発しているOpen Jounarl Systemという気の利いたオープンソースのシステムで構築されているようであり、確か、JATS/XMLを使えるようにするためのプラグインがあったような気がするので、それを導入すれば割と簡単に全文XML投稿できるようになるのではないかと思ったりもしました。が、まあ、ワークフローを絞り込むのは運用コスト低減には重要なので、そのあたりを考えてのことかもしれませんね。

というようなことで、みなさまにおかれましても、ご自身が投稿予定の雑誌の投稿規定を確認した上で、問題なさそうならぜひプレプリントサーバを試してみましょう！それから、投稿前には「投稿ガイドライン」を熟読しましょう！