シェイクスピア戯曲の文法的特徴を簡単に調べてみる

本日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポスライドとGoogle Colabを準備してちゃかちゃかお話をしました。このようなコンセプトにしたのは、コーパス研究者でタグを邪魔だという人を結構拝見したことがあったということと、ごく最近にも以下のようなお話もありましたので、使い方以前に、「タグがついていると何がうれしいのか」をもう少し明白に共有した方がよいのではないか、ということがありました。

さて、このワークショップの際は、英語コーパス学会の方々に聞いていただくので、おそらくなるべくカタいものを使った方がよいのではないかと思い、BNC (British National Corpus)を事例としてご用意したのですが、

せっかく作ったので公表したい

        

しかしBNCはマニアックすぎるのでは

        

そういえばノースイースタン大学のマーティン・ミュラー先生がシェイクスピアの品詞情報タグ付きコーパスを公開しておられたぞ

ということで、素材をシェイクスピアのテキストに入れ替えて、TEI/XMLファイルがあるとどう便利なのか、という簡単なPythonプログラムをGoogle Colab上に作成してみました。これは、ボタンクリックすれば実行されるものですので、プログラミングをまったくできなくてもお試ししていただくことができますが、解説に関してはPythonを少し勉強したことがある人向けのもので、細々とプログラムの中に書き込んでおります。でも、むしろ、これをみてPythonを勉強してみようという気持ちになってくださる人がおられたら、それもとてもうれしいことです。

colab.research.google.com

Google Colabでは、とにかく以下の「セルを実行」ボタンをクリックすると、そこに書かれたプログラムが実行されるようになっています。

上記のGoogle Colabでプログラムを実行していただくと、なるほど、という感じになってくださるのではないかと期待しております。

最後の方に用意してある「5.3.各ファイルにおける動詞の中でのbe動詞とdo動詞の割合を数えてみる」の結果をエクセルに持ち込んでグラフ表示すると冒頭の画像のような感じになります。

Google Colabに用意したものは、値を変えるだけでも色々なものを数えたりできますので、興味が沸いてきたら、「ファイル」メニューから「ドライブにコピーを保存」で自分のドライブにコピーしてから色々と試してみてください。

※この記事は「「人文学のためのテキストデータ構築入門」フォローアップサイト」の一環です。

人文学データにおけるジェンダーの記述手法がTEIガイドラインに導入されるようです

先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI (Text Encoding Initiative)というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、それを策定する団体のことでもあります。前者をTEIガイドライン、後者をTEI協会(Consortium)と言います。

このTEIガイドラインの詳細については、最近、日本語の解説書『人文学のためのテキストデータ構築入門』(文学通信)が出まして、アマゾンのKindleでも読めますので、よかったらぜひご覧ください。お金を出すのは大変だけどなんとかして読みたいという場合は、公開前提のレビューを執筆してもよいのであれば、「『人文学のためのテキストデータ構築入門』刊行記念レビューキャンペーン」から申込んでいただければ無料で読むこともできます(まだ少し枠が残っています。先着順です)。

www.amazon.co.jp

あるいは、レビュー書くのも大変だから避けたいけどなんとかしてTEIガイドラインについて知りたいという場合は、単にグーグルで「TEIガイドライン」で検索していただくと、上記の解説書に含まれている原稿の(改稿前の)大部分の原稿が論文やエッセイの形でWebで色々読めますので頑張って探してみてください。

さて、このTEIガイドラインでは、とにかく人文学資料のデータを「あとで機械処理しやすいように」記述するためのルールを様々に用意しています。これに準拠して記述しておけば、「この手紙はどこからどこにいつ出されたのか地図年表上にマッピングする」とか「この古典籍はどこの所蔵者の手を経てここに来ているのか」、あるいは「戯曲の登場人物達はどの幕で登場しどこで亡くなるか、そして亡くなってからも登壇発言するのは誰か」といったこと、さらには「校訂テキストの各対校本を脚注の校異情報から再建して各対校本のテキストを並べて読めるようにする」等々、色々なことを可能になります。(この書き方も含めて上記の解説書には色々なことが解説されています)

そのようなことで、「どういう要素をどのようにして記述するべきか」ということが常に議論され、その成果がガイドラインに反映されていきます。昨年、日本語のルビを記述するためのルールが導入されたことは記憶に新しいですね。近年は、コンピュータやネットの高速化・高度化により、様々な要素の記述手法が新たに追加されるようになり、ほぼ半年に1度の新規リリースが行われています。

次回リリースは10月の予定なのですが、そこでの目玉として先週のTEIカンファレンスで発表されたのが、ジェンダーの記述手法です。これまでも性別の記述はできていたのですが、生物学的性別とは異なる位置づけとしてのジェンダーは、別の記述手法を用意した方がよいということになり、これまでの<sex>というエレメント(タグ)に加えて<gender>が提供されることになりました。

<gender>が導入されたことで、たとえば、女性に生まれ変わったり気持ちまで女性になったりしたことのあるヴァージニア・ウルフの小説『オーランド―』の主人公は以下のように記述できることになったようです。

<person xml:id="orlando">
  <persName>Orlando</persName>
  <sex from="#ch1" to="#ch3" value="M"/>
  <sex from="#ch3" value="F"/>
  <gender from ="#ch1" to="#ch3" value="M"/>
  <gender from ="#ch3" to="#ch3b" value="NB"/>
  <gender from ="#ch3b" value="W"/>
</person>

ここでは、第三章までは身体的には男性でそれ以降は女性、ジェンダー的には、第三章までは同様だが第三章の途中までは不明瞭になり、第三章の途中からは女性になる、ということが記述できています。このルールを使って色々な人物や資料を記述すれば、面白いデータが作れるようになるでしょうし、そもそも、その点を意識しながらデータを作るようになれば、ジェンダーへの理解もこれまでとは少し違ったものになるのではないかとも思います。

<追記>

念のため追記しておきますと、この<gender>タグはTEIガイドラインでは必須のものではなく、利用するかどうかについては、あくまでも、タグ付けをする人やタグ付けの方針を策定する人の任意です。このタグが必要ないという場合も多いと思いますし、敢えてそこまでやらないということもあるでしょう。ただ、そういう選択肢が提示されているかいないか、ということが重要なポイントかと思っております。

それから、<gender>を採用することにした場合には、このタグは本文中に埋め込むことはおそらくはほとんどありません。文書中のどこかに人物情報を書いておき、そこに<gender>タグを記載することになります。そして、本文中には「人名」を指すタグとともにこの人物情報を参照する属性をつける形になります。たとえば、上記の解説書での事例では<back>の中の<listPerson>の中に人物情報が書かれています。こちらでそのサンプル(漱石書簡)が閲覧できます。たとえば上記の<persName corresp="#orlando">オーランドー</persName>氏の情報を指す場合は…という風になります。

</追記>

この件についての詳しい議論の経緯や情報は、メールマガジン『人文情報学月報』の10月号に掲載予定ですので、よかったらこれを機にぜひ『人文情報学月報』の読者登録(無料)をしてみてください。

『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します

すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。

今回は、『人文学の…データ構築入門』の第一部、第二部のうち、TEIガイドラインに関する部分を中心にしてセミナーを実施します。Transkribusの話はしませんので、あらかじめご了承ください。

予定している内容は大体以下の通りです。

  • 10:00-11:30 人文学のためのテキストデータ構築とTEIガイドライン

  • 12:30-14:30 TEIガイドライン実践演習

  • 14:45-16:15 続: TEIガイドライン実践演習

  • 16:30-17:15 Susan Schreibman先生によるVersioning Machineに関する講義+質疑応答

  • 17:15-17:30 セミナーのまとめと質疑応答

なお、今回は、特別ゲストとして、国際的なデジタル・ヒューマニティーズの定番の入門書として広く知られる『A Companion to Digital Humanities』と『A New Companion to Digital Humanities』新旧2冊の共編者の一人でありTEIガイドライン対応の校訂テキスト視覚化ソフトウェアVersioning Machineの開発者としても知られるオランダ・マーストリヒト大学のSusan Schreibman先生にVersioning Machineについての講義をいただきます。

参加申込みはこちらでお願いします。⇒ https://forms.gle/CNUYGz5esSzMSkQ3A

京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ

京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくなってしまうようだ。

基本的に、Webコンテンツの持続可能性について、私は、「とにかく再利用可能なライセンスをつけておけば存続できる」という点を大切にしているのだが、それは必ずしもうまくいかない面がある。貴重資料の画像で、それにメタデータを付与して一緒に流通させ、ハッシュでデータの改ざん可能性を管理したりすれば、さらに、そもそもIPFSでなんとかすれば、と考えたりしつつ色々なことを試しているのだが、しかし、オープンコースウェアの場合、またちょっと話が変わってくる。オープンコースウェアは基本的になまものの教育コンテンツを志向するものであり、それ単体で価値を持つ類のものというよりは、教育コンテンツであることをどこかが保証してくれることで意味を持ってくるものであり、それゆえに、教育コンテンツとしてどこかが裏書きをしてくれることが期待されるものであり、つまり、適宜のアップデートも必要になる。

さて、今時のOCWでは動画が公開されることも多いが、動画のアップデートというのは基本的に死ぬほど時間がかかって大変なものである。しかし、これをなんとかする一つのソリューションとしてIIIF(International Image Interoperability Framework)における動画アノテーションという技術仕様がある。残念ながらYouTubeには適用できないのだが、MP4動画であれば、公開されている動画を別のサイトで再生させ、その際に画面上(+タイムライン上)に文字や画像、音声、動画をアノテーションとして付与することができるという、結構アレな技術仕様なのだ。もちろん、仕様としてアレ過ぎて、それを完璧に実装できるソフトウェアは存在しないのだが、現在、世界各地でぼちぼち開発が進められている。(詳しくはこちらの頁を見てIIIFのSlackに参加して、avチャンネルをみていただくと最新の開発状況を確認できる。IIIFは、基本的に「アノテーションの仕方(の技術仕様)」を決めるだけで、あとは世界中のみんなで仲良くそれにあわせた実装系を開発してね、という代物なので、そこで実現し得る多様な実装の一部を選び取って「ビューワ」を作成するのがIIIFデベロッパのお仕事の一つであり、世界中の、主に研究図書館やミュージアム等に所属するエンジニア達に、一部企業エンジニアも加わり、主にフリーソフトウェアを舞台にしのぎを削っている。

ということで、筆者らも、この技術仕様をなんとか使えるようにしたいという気持ちに加えて、OCWのような適宜のアップデートが必要なコンテンツの扱いにおいて可能性があるのではないか、ということも考え、結果として、IIIF動画アノテーションを実装した改良版Miradorというビューワを開発・公開した。これを用いて、2017年に筆者が京大で講演したOCW動画に対してアノテーションを付与し、2020年の状況に対応できるように追記修正したのである。ここでの追記修正は、京大サーバ上の動画はまったくいじることなく、ただ、JSONデータ(=テキストデータ)で画面上の位置と時間を指定して文字や画像をオーバーレイしただけである。そのJSONデータを「どこかのサイトに置いたMirador」に読み込ませれば、追記修正された動画を表示できるようになるのである。 このJSONデータは、ロジカルでありかつ非常に簡素であり、少し仕組みを理解できれば、人が手で書くことができるレベルのものである(私はこれを手で書いた)。(なお、このMirador改良版は、さらに改良を重ね、現在では、ELANとも互換性を持つに至っていることも追記しておきたい。)

動画画面上への画像のオーバーレイ
動画画面上への画像のオーバーレイ

このことは、いいことばかりではなく様々な問題を生じる可能性もあるものの、たとえば、IIIFアノテーションで追記修正を行うことにより、教育コンテンツ動画のアップデートの回数を減らせそうであるという点で、あるいはそもそも、動画だけではできない色々なコンテンツの追加やハイパーリンク化などを実現できるといった発展的な面でも結構面白いことになるのではないかと思ったりしたものであった。

というような見通しのもと、筆者の京大OCW動画をネタの一つとして色々育てていこうと思っていたのだが、これももしかしたらなくなってしまうのかもしれない…と思うととても残念なことである。関連サイトを拝見する限りでは関係者の方々の無念を感じるばかりで当方もつらくなっているが、京大はデジタルアーカイブや機関リポジトリにも力を入れているので、そちらの方で保存だけでもしてくれるのではないかと淡い期待をしている。いずれにしても、外からは何も見えないので、諸事、うまいところに落ち着いてくれることを祈るばかりである。

人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

https://bungaku-report.com/blog/2022/07/tei1.html

初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものです。日本語文化圏でも、TEI ガイドラインに取り組むにあたっては Web に様々な情報が各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていました。とはいえ、Web の海に浮かぶそれらは、論文であったり、Web コラボレーションシステムに組み込まれたサイトであったり、英語で書かれたTEI ガイドラインの部分的な翻訳や解説動画の日本語字幕など、どれも有用ではあるものの、どこから始めるべきか、どこまで確認・習得すれば実用しても問題ないのか、そもそも実用とはどういうことなのか、といったことがなかなかうまく把握できない状態でした。本書は、そのような状況に対して、最初にどこから始めればいいのか、どこまで深く取り組めばどの程度の有用性が出てくるのか、といった、TEI ガイドラインの総体的な把握の仕方について1冊のまとまった単行本という形で提示すべく用意されたものです。

その内容は、人文学、なかでもテキスト研究において国際的な共通言語を志向する形となっている TEI ガイドラインをめぐるこれまでの歴史と葛藤など、その取り組みとしての全体像を把握するための章が提供されており、続いて、そこで活かされるテキストデータを手書き文書から作成するための Handwriting Text Recognition(HTR)における最先端のソフトウェアの一つである Transkribus[2]の使い方のガイドと、それに加えて、実際の活用例が示されています。

この次には、そのようにして作成されたテキストデータを構造化するための基本的な手法についての解説が掲載されています。ここでは、かつてオックスフォード大学の DH を支え、現在はニューカッスル大学で中世英文学と DH の上級講師を務める James Cummings 氏がかつて作成した教材を、その基本的な枠組みを活かしつつ、日本語資料やその特性にあわせて改編したものが実践演習として提供されています。そして、用意された資料のマークアップを通じて、TEI ガイドラインに従ってテキストデータを構造的に構築していく際に必要となるパソコン操作のための効率的な手技と、人文学研究を前提としたデータ作成に際しての現代的なコンピューティングにおける基礎的な考え方の両方を習得できるようになっています。この教材で用いられているのは夏目漱石の書簡のデジタル画像です。漢字仮名交じりの合略仮名も含む筆致のテキストを、その筆致の特徴を活かしつつ利便性も高める形で構造化しようとするなら、様々な要素に配慮しながらマークアップをする必要があります。あくまでもチュートリアルであり、十全な成果が得られるものであるとまでは言えないものの、これを通じて人文学研究におけるテキストデータ構造化の基礎を習得できると思います。

なお、この夏目漱石書簡デジタル画像は、東北大学附属図書館から自由な再利用を可能とする利用条件で最近公開されたものです。すなわち、この実践演習、引いてはこの書籍は、デジタルアーカイブ公開画像を二次利用した成果物と位置づけることもできます。

また、書簡を構造化するだけではその意義や効果がわかりにくいこともあるでしょう。そのために、構造化テキストを、その構造に基づいて活用するための簡単なチュートリアルも用意されています。ここでは、XML エディタの機能を活用する方法や、XSLT という言語で簡単にテキストを変換処理する手法などを実践的に習得できるようになっています。

第三部は、様々な資料に対して TEI ガイドラインを適用した場合の事例研究の紹介です。日本の古辞書や財務資料、近代の資料や、Transkribus と TEI を組み合わせた自動人名抽出の手法など、様々なものが紹介されており、さらにデータを可視化する技術の事例紹介もあります。ここで、TEI を適用したことによりどのような方向で研究プロジェクトが発展可能なのか、というヒントを得ることができるでしょう。

第四部は、漢文仏典である大正新脩大藏経を構造化する取り組みであるSAT TEI化研究会による大規模マークアップを前提とした試行とその成果についての紹介です。大正新脩大藏経には様々なタイプのテキストが含まれており、校訂テキストとしての一般的な仏典の構造へのより深い構造化手法についての検討が行われるだけでなく、日本仏教文献や禅籍、仏教音義書等を対象としたマークアップの手法が検討され、その過程で任意の段落設定の手法や外字や割注、知識グラフとしての表現など、様々な課題と解決方法が提示されています。一つの叢書をめぐり、そこに含まれる実に多様な構造への対応のプロセスを読み取ることができる章がちりばめられており、ここでもテキスト構造化に際しての様々なヒントを得ることができるでしょう。

また、本書にはコラムが各所に配されており、実際にマークアップを行うに際しての考え方や、世界各地の TEI 準拠の事例紹介、それに加えて、著作権法改正に基づいて Google Books のようなサイトを作るための基本的な考え方などが紹介されています。それぞれに有益な情報として活用できる局面があるかもしれません。

本書を通じて、多くの読者は物足りなさを感じると思います。それは、テキストの構造化には様々な考え方があり、本書はそのうちのごく一部を扱っているだけに過ぎないからです。むしろ、より広く深い事例を扱う応用編が必要であり、そのような事例自体もより多く必要であることが、本書の刊行によって明らかになるということでもあります。つまり、この本は、あくまでも、ここから続く長い道のりの第一歩として位置づけられるものです。

本書がもたらし得るものは、冒頭に述べたように、TEI ガイドラインを利用したテキストデータの構造化に具体的に取り組めるようになるための入口でしかありません。日本語文化圏でこの入口が整えられたことにより、日本の人文学における多様な取組みやその成果が様々な意味で世界に開かれ、そして未来につながっていくことを期待したいと思います。

[1] http://bungaku-report.com/books/ISBN978-4-909658-84-5.html.

[2] https://readcoop.eu/transkribus/.

※この記事の初出はメールマガジン『人文情報学月報』第132号です。

NDL Ngram viewerの正規表現検索が面白い

正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。

人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで 良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。

lab.ndl.go.jp

正規表現の「.」を試してみる

たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。 そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます。

「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、 そのあと分類してカウントしてくれるのはこのviewr独自の便利機能ですので、 正規表現だけでそこまでできるわけではないという点はご注意ください。

ただ、それはともかく、正規表現での検索ができています。たとえば、上の例を見てみると、 正規表現では「.」(ドット)は何らかの1文字を意味しますので、「..新聞」では、何らかの文字が 2つ続いた後に「新聞」という文字列が続く4文字の文字列を検索していることになります。 そうすると、3文字はどうか、4文字はどうか、という風に探してみてもいいでしょう。

そうすると次に気になるのは、「震災」という言葉の明治大正期の使われ方です。 試しに「..震災」と、2文字が震災の前にくる文字列検索してみると以下のようになります。

ここで、「東京震災」を見てみると、

1926年に 3440件と突出しています。同じ年には、「大正震災」1150件、「臨時震災」1011件、となっています。

一方、「..大震災」で検索してみると、「関東大震災」がやはり圧倒的に多いですね。

ただ、検索対象が主に出版物であるためか、震災の年よりも翌年以降が多く、また、1935年、1940年に二つの山がありますね。 ただ、そもそもその年の出版物(というよりこのデータベースが収録している資料)の多寡で母集団が変わっている可能性も ありますので、時系列で一つの単語を追ってみたいときは、以下のボタンをONにして、出現頻度/総Ngram数でみてみるとよいかもしれません。

そうすると、以下のように、割となだらかな感じになります。

他に似たような単語が使われたケースはないのかな…と思って、「大震災」の前につける「.」を一つずつ増やして検索してみると…五文字付与してみたところで、「九月一日の大震災」というのが割とヒットしました。なるほど、という感じですね。

正規表現の「+」を試してみる

「.」だけでは芸がないので、もう少し正規表現を試してみましょう。「+」です。 「+」は、前の文字を1回以上繰り返す、ことを意味します。これを用いると、たとえば、 「.+大震災」で検索した時に以下のようになりました。

この場合は、先ほどまでのように文字の数をいちいち増減させなくてもざくっと探してきてくれますので楽ですね。(その代わり、細やかさは少し減りますが。)

また、「大」も外して「.+震災」で検索すると以下のようになりますので、

これはこれでまた若干の発見がありますね。

なお、検索結果頁の下の方を見ていくと、各単語の総出現頻度も並んでいるので、グラフに表示されないものも含めてチェックできてこれもとても便利ですね。

こうなってくると、他の正規表現記号も便利なのではないか…ということで、角括弧[...]も試してみましょう。

正規表現の角括弧[...]を試してみる

正規表現の角括弧[...]は、「各括弧内にあるいずれか1文字」を指します。たとえば、[あいうえお]と書いておくと、「『あいうえお』のうちのいずれかの1文字」を指します。 ハイフンを用いると文字の領域を示すこともでき、[あ-お]と書くと、あ~おのいずれかの1文字、ということになりますので、この場合は[あいうえお]と同じ意味になります。

さて、というわけで、今度は「いずれか1文字」を検索してみたいのですが、さて、何かよい方法はあるでしょうか…?

ということで、ちょっと思いついたのは、「戦前に図書館がどのように扱われていたかを調べて見る」ということです。これによってすべてを確認できるわけではないですが、 図書館について何かを行ったり言及したりする場合、「図書館を」や「図書館に」などの助詞が着くことが多いような気がします。そこで、角括弧の登場です。「図書館[にを]」というキーワードで一度に両方を検索できます。さらに、それに対して何かのアクションを行っていたことを検索するなら、上でやってきたことを、今度はこの検索語に続けて付与すればいいですね。たとえば「図書館[にを]」.+」とか。

さて、どうでしょうか…?

グラフだと図書館の設置に関する言及が結構みられますね。図書館を設け/図書館を設立/図書館を設置 といったものが比較的上位に来ていますね。

さらに、頁の下の方にずらっと並んだ検索語まで見てみると、もう少し面白い感じになりますね。

図書館に寄贈、というのが271件も出てきます。図書館に保存、も255件です。図書館を経営、というのも193件あります。さらに下の方にもちょこちょこ面白い表現が出てきます。

が、ここで、カタカナを忘れてはいけない、ということを思い出しました。「図書館[をにヲニ].+」としておくことで、カタカナも含めて検索できます。こうなると、今度は情報量の少ない結果がたくさん並んでしまってちょっといまいちですね。検索結果を集約する際に、カタカタとひらがなをまとめてくれる機能があるといいですね。 それはともかく、この結果を手がかりに、さらに色々な検索ができそうですね。まずは、続く文字を2文字だけに限定してみます。これは「.」を二つ並べて

図書館[をにヲニ]..

でいいですね。この結果は以下のようになり、上に貼り付けた画像の検索結果と似たような感じですが、検索結果一覧を見ていくと、やはり色々あって面白いですね。

ここで、図書館を作ることに関する表現が多いので、その表現の変遷をみてみましょうか。この場合、(...|...)を用います。「|」でorを表し、丸括弧内のいずれかの文字列を検索します。

正規表現の「(...|...)」を試してみる

というわけで、

図書館[をにヲニ](設立|設置|開設|創立|新設)

という検索語で検索してみると、以下のようになりました。

これはこれで面白いですが、やはり、カタカタとひらがなを集約しないと、ぱっとただけでは数の変遷はわかりませんね…。 とりあえず、検索結果の数値をダウンロードできるようになっていますので、ダウンロードして自分でまとめてみるとよさそうですね。

というようなことで、NDL Ngram viewerのお試しでした。

ちなみに、正規表現は、かなり長く使われているいわゆる「枯れた」技術で、入門者むけ解説もあちこちのサイトにあります。 おすすめはこのあたりです⇒「とほほの正規表現入門 - とほほのWWW入門」。

今時の簡単なXML論文ファイル作成提出方法/デジタル・ヒューマニティーズ国際会議での事例

論文の本文をXMLで記述しよう、という取り組みは、世界的にはかなり進んでいるようであり、日本でもJ-STAGEが「全文XML」ということで推進中です。 この7月に東京大学が開催予定の、国際デジタル・ヒューマニティーズ学会連合(ADHO)による国際学術大会 DH2022でも、全文XMLでの提出が求められています…が、この学会連合の場合、論文のXMLどころか、写本や碑文、楽譜などの内容のXML化にずっと取り組んできたコミュニティであるため、その種の技術に長けている人が、特に欧米には結構な数いらっしゃいます。そのようなコミュニティですので、以下のようなルーティンで、論文執筆者はXMLタグをまったく見ずに、しかしXMLで構造化された論文ファイルを提出できる仕組みが用意されています。その結果、毎回の発表論文のデータはすべて(2017年大会を除き)全文XMLで利用できるようになっています。(ここでのXMLはTEIガイドライン準拠のものですが、JATS/XML等にもおそらく自動変換できると思われます)。

論文執筆者の手順

さて、これを論文執筆者の手順の方からみてみますと、

  1. 論文執筆者は自分の投稿システムIDでXMLファイル作成システムにログイン

  2. 自分の名前・所属・発表タイトル等が入力された、MSワードかLibreOfficeのテンプレートファイルをダウンロード

  3. MSワードかLibreOfficeでテンプレートファイルに本文・図・脚注・参考文献一覧などを記入

  4. XMLファイル作成システムに再度ログインしてXMLファイルを生成してダウンロード

  5. XMLファイルは画像ファイルや変換済みHTMLファイルなども含めてzipアーカイブ(拡張子は.dhc)としてまとめられてダウンロードされるのでそれを投稿システムにFInal Upload

という風になります。ですので、論文執筆者は、XMLタグをまったく見ずにXMLファイルを作成できているのです。

システムの裏側

このシステムの裏側ですが、JAVAで書かれたDHConvalidatorという、この会議のために作成されたソフトウェアがあります。 この学会連合ADHOのGitHubアカウントで公開されているのですが、デジタル・ヒューマニティーズは学会連合でもGitHubアカウントを 持っていてソフトやデータを公開しており、その一環という位置づけになっています。誰がコントリビュートするのか、と言えば、 欧米のDH分野には、プログラミングにはまってシステム開発もできるようになってしまう、いわゆる「作る人」が結構いて、 そういう人たちに大学院~ポスドクの間に学会連合が謝金を出しながら作業していただく、というのが割と一般的です。そうすると、 「自分たちが使いたい物を自分たちで作る」形になりますので、仕様書作成とか作りたいものの説明などの手間が 激減しますので、頼む側は安くで作れて、作成者はお金をもらいながらスキルも身について人脈もできて、 できあがるものもそんなに悪くない…という風になっています。さらに、学会を開催するたびにDHConvalidatorをセットアップして使う、となると、そのたびに作った人や メンテをしている人たちに色々おうかがいすることもでてきますので、人脈作りという意味では若手にはうってつけでしょう。 このソフトウェアは汎用性が高く、次に述べるConftoolを使っている学会ならそのまま使えますので、実際に他の学会でも これを利用して論文をXMLで提出させるところがあるようです。

次に、データ構築の効率化について少しみておきましょう。 ADHO関連学会では、学会開催時の投稿管理システムとしてConftoolというサービスを使っていますが、この システムではAPIで外部から認証できるようになっており、DHconvalidatorは、この認証APIを用いて認証したり、発表者の名前・所属・発表タイトルといった 基本的な情報を取得して自動的にXMLで記述してくれます。つまり、一度投稿システムに自分の情報を登録すれば、そこから一気にXMLのデータまで できてしまいますので、ユーザ側の操作が少なくてなかなか親切です。

実際の変換に際しては、DOCX等の色々なファイル形式をXML等のファイル形式に変換してくれるOxGarageというサービスがありまして、 デフォルトだとこのAPIを用いて対象ファイルをXMLに変換しています。

そういうものだと設定は結構面倒なのではないか…と思われるかもしれませんが、今時の仕組みですので、dockerで全部入りのものが動かせるようになっています。 実は、dockerに頼らずにやってみようかとしばらくあれこれ試してみたのですが、結局挫折しました…。で、dockerで動かした上で、Apacheのリバースプロキシで 外部から使えるようにしています。

まとめ

というようなことで、世の中ではXMLを使うべしとかXMLはもう古いとか色々おっしゃる向きもありますが、基本的に、楽な方に、使いやすい方に流れていきますし、 「作る人」が一定数確保できている分野では、色々便利なものが提供されるようになる、ということでもあります。「作る人」のみなさんを大切にしましょう、ということで 今夜はここまでとしたいと思います。