3D×紙の繊維×漢字字形:イベント盛りだくさんな土曜日でした

3/13(土)は、参加したいイベントが盛りだくさんな日でした。

なんとか少しでも参加できたのは、3Dと紙の繊維と漢字字形を扱う3つのイベントでした。他にも 日本語コーパスのイベントと舞台芸術アーカイブのイベントがありましたが、残念ながら、これは参加できませんでした…。

特に3次元データ紙の繊維のイベントで 共通しているように思われたのは、人文学において新たに取り込もうとしている 認識の様式をどのようにしてこれまでの文脈のなかで共有可能な言語、あるいは記号に置き換えるべきか、 という点でした。3次元データイベントの方では、ディスカッションの 時間に、考古学における計測と観察の関係についての議論等で特にそういう話が出ていたように思われました。 一方、紙の繊維のイベントの方では、 とくに、舟見一哉氏の発表でそういった 問題意識が丁寧にまとめられていたように感じました。後者のイベントは、実践女子大で入手した VHX7000という 高精細マイクロスコープで紙の繊維を観察してその顕微鏡画像から資料に含まれる事実を 解明しようとする私立大学ブランディング事業のシンポジウムということのようでした。すでに 佐藤悟氏が国文学研究資料館のイベントで発表をしておられたことがあったと思いますが、今回は 色々な論者による様々な観点からの発表がずらっと並んでいてなかなか壮観でした。 紙の繊維のイベントの方は、発表レジュメがWeb公開されている のでそちらでその一端を知ることができると思います。舟見氏の発表に限らず、全体として非常に面白いシンポジウム であり、レジュメ資料もそれなりの情報量がありますのでこれは読むことをおすすめしたいところです。 ただ、舟見氏の発表はスライド資料がわかりやすく充実していたように思われまして、あれも 公開していただけるとうれしいなあ…などと思ったりしたところです。

一方、漢字字形の件というのは漢字文献情報処理研究会における 上地宏一氏によるGlyphWikiについての発表を指しています。 こちらは新しい認識の様式を共通化して取り込む、という点について、機械可読・変形可能な漢字の部品を対象として取り組んだと 言うことができるように思われるが、なんと2001年には、「部品で漢字を表現するシステム」としてのKAGEシステムの 中核部分を実装していたとのことです。(この件はリアルタイムに 知っていましたが、年代はもう忘れてしまっていたので確認してみたのでした。)

一度、そのようにして機械可読・変形可能な漢字の部品が共有されたことにより、このシステムはGlyphWikiという漢字字形共同作成システムへと 発展します。漢字の部品は言葉を表現するための要素ではありますが、言葉では表現しきれない情報も、機械可読・変形可能な漢字の部品として共有できる システムを誰もが利用可能になったことで、それまでの様式を超えた情報交換も可能になった、という点が非常に面白いところです。 ちなみにこの GlyphWikiは、10年以上継続運用されてきた結果、東アジアの漢字マニア/研究者の間ではデファクト標準になっていて、 海外で漢字の議論をしているとしばしばこれが字形共有基盤として出てくるようなものなのですが、 トップ投稿者は49万文字、上位からみて第30位でも11642文字を投稿しているとのことで、 相当に広まっていることが想像されます。漢字を作成するためのエディタが優れていて、 簡単に新たな漢字字形を作成できる点と、部品として使えるフォントのライセンスがフリーであるという点が 受容されているところなのでしょう。

さて、こうなってくると、紙の繊維の画像も、言語化を超えた次元でなんとかできないのか、という気もしてきます。 となると、今はディープラーニングによる画像認識が使えないのだろうか…というテーマは、なんとすでに 明日の紙の繊維のシンポジウムで中村覚氏による発表があるそうです。すでにレジュメは公開されていますが、 発表の方も気になるところです。

というようなことで、人文学においても研究における認識の様式が、今後しばらくの間、様々な局面で新たな状況への対応が必要になっていきそうな雰囲気です。 @yhkondo先生の以下のツィートを拝見して、まったく同感だと思ったところでした。

それはそれとして、本日は期せずしていくつものイベントを並行して拝聴することになりましたが、 エジプトに行ったり敦煌に行ったり英国図書館に行ったり、そうかと思えば高山寺に潜り込んでみたりイェール大学やら ブラウン大学に行ってみたり、中国の大学のやや厳しい雇用事情を知ってみたりと、 フィールドとしての人文学の多様性を実感したというか、世界一周旅行をしたような気分に なってしまいました。熊倉和歌子氏の「期せずして補修前の遺跡の姿をVR保存することになってしまった」というエピソードも 臨場感を与えてくれてわくわくしたものでした。こういうたくさんの話を家で聞けるというのは、一過性のものかも しれませんが、直接お会いできない残念さはあるものの、オンラインゆえの貴重な体験でもあるかもしれない と思いながら余韻に浸っているところです。

「人間文化研究情報資源共有化研究会」への期待

明日、3/12(金)は、デジタル人文学/人文情報学に関する重要なイベントが2つあります。 片方は人文学の研究データの基盤の話、もう片方は研究データをどのように展開するか、というテーマを 扱うようで、この二つが重なってしまうのはなかなか残念なことなのですが、特に年度末はよくある ことなので、それはそれとしてなんとか対応するしかありません。

しかしながら、ただ参加するだけなら両方視聴すればよいのですが、今回はそのうちの片方の 国際シンポジウム「古典のジャンルと名所-デジタル文学地図の活用」 でコメンテイターをすることになったので、 そちらをきちんと拝聴するつもりであり、そうすると、もう片方はあまり耳を 傾けることも議論に参加することもできないだろうと思います。しかしながら、人文学の将来にとっては 非常に重要なプロジェクトが開催するイベントなので、話を聞くことはできないにしても、 期待するところだけでもお伝えしておかねばということで、関係者の人がこちらを 読んでくださることを願いつつ、以下に少し書いておきたいと思います。

参加できない方のイベント、というのは、第16回人間文化研究情報資源共有化研究会のことです。 人間文化研究機構という、国内トップクラスの国立人文系研究機関を束ねる組織が進める、人文系の研究データを共有できるようする という事業であると個人的には理解しております。それぞれの所属機関が公的資金を投入して構築した 貴重かつ有用な研究データを大量に蓄積しており、さらに、それらを横断検索できるようにしているのが 統合検索システムnihuINTです(多分)。単なる検索だけでなく、地図年表上での 検索結果のプロットなど、現在の技術でそれほど手間をかけずにできそうなことは大体実現されていて、 お手本のようなサイトの一つです。今後も色々拡充されていくのだろうと思いますが、ぜひがんばって いただきたいところです。

そこで、これはあくまでも外野の勝手な意見というか気持ちなので実現可能性などを考慮している わけではないのですが、拡充の方向性について、個人的には色々期待するところがあります。 わがままというかお節介というか、実際に事業を推進しておられる方々には大変恐縮なの ですが、そのうちの少しだけでも、あくまでも個人的な立場として挙げておきますと、

個人的な期待その1

まず、現在、研究データと言えば、オープンアクセスリポジトリ推進協会(JPCOAR) がJPCOARスキーマというものを作って研究データをリポジトリに載せることを 薦める活動を推進しているようです。もちろん、JPCOARにも様々な経験者・知恵者が おられると思うのですが、今のところ、だからJPCOARスキーマに準拠して 研究データをデポジットしよう、という話は人文学研究者の間からはまだあんまり 聞こえてきません。一方で、こういうものは経験がものを言う場面もあり、 事例の積み重ねが重要になる局面もあるでしょう。人間文化研究機構の方での 研究データの横断検索やそれを実現してきた実績が、すでにJPCOARの活動にも 反映されているならよいと思うのですが、もしそのあたりがまだそれほどでも ないのであれば、人文学研究者を研究データのオープンアクセスリポジトリ に近づけるためのノウハウを色々お持ちなのではないかと思いますので (しかしながら、よくある話として、ご自身の特長についてあまり言語化・自覚が できておられないかもしれないので)、対話の場などを適宜設けて、 うまく連携していただければと思っているところです。

個人的な期待その2

それから、色々便利なものを作ってきてくださっているところですが、便利なものを 提供するサービサー側にとどまってしまうと、色々な面で大変(書くと長くなるので 省略します)ですので、各機関の研究者はもちろんですが、それだけでなく、 利用する研究者側でも参加できるような仕組みが提供されるとよいのでは ないかと思っております。そうすると、利用者側の当事者意識を高めることにも つながって、結果として、大学共同利用機関としての存在意義を深めることに なるでしょうから、機関としても、人文学研究者全体としてもよい方向が 一つできるのではないかと思うのです。なお、そんなことわかってるし当然 計画している、かもしれず恐縮ですが、外野からはそういう議論や進捗の内実も わかりませんので、その点はご容赦ください。

具体的には、まあ色々ありますが、ごくわかりやすい例で言えば、CiNiiの名寄せ 報告システムみたいな簡単なものでもよいのではないかと思います。データを 典拠データベースと紐付ける、くらいのことでも、つかいながら気がついた情報を ちょこちょこ簡単に報告できるようになっていて、それがしばらく後に反映される ようであれば、データベースや事業への愛着を持ってくれる人も増えていくのでは ないかという気がします。

また、システムだけでなく、データの作り方も色々あり得るのではないかと思います。 今はどうなっているかわかりませんが、研究者個人が研究データをデポジットできる マイ・データベースという仕組みを計画しておられた時期もあり、現在はむしろ JPCOARの方でデポジットの部分は担ってもらえるにせよ、そういうところで 蓄積した知見を踏まえつつ、ユーザ志向のメタデータ集約システムのようなものを 構築していくという方向もあり得るでしょう。それも、かつてなら認証システムを 自前で構築して…ということになって大変でしたが、最近は連携認証を使ったり、 WebブラウザのLocal Storageを使ったり、手間をそれほどかけずに済ませる方法も 出てきていますので、何か工夫が可能なのではないかとも思います。 EUが支援する人文系研究データリポジトリCLARIN-ERICではシボレス認証+独自認証という 運用をしているようで、あるいは 国立台湾大学で構築運用しているDocuSkyなども、そういう方向性を考える上では 役立ちそうな気がします。

というようなことで、外野が勝手に思っていることを、少しだけですが書かせていただきました。 リソースもパワーも経験も、本当にすごいものがあって、それはこれからの オープンサイエンス時代の人文学に大きな貢献が可能であると思っておりますので、 まずはそれを自覚していただきたい、というのが気持ちのベースにありまして、 とにかく、関係者のみなさま、これからもがんばってください。

3D学術編集版:人文学の研究成果/研究環境としての3D構築

このところ、3Dに関する取り組みがデジタル・ヒューマニティーズの世界でも見られるようになってきました。この週末には人文学と3Dをテーマとしたイベントも開催されるようで、いよいよ盛り上がりが始まる気配を感じさせます。

ではデジタル・ヒューマニティーズにおいて3Dがどういう風になっているのか、ということをちょっと見てみますと、どうも最近、Susan Schreibman先生(今はオランダのマースリヒト大学)がかなり凝っておられるようで、 充実した論文を2つ、Costas Papadopoulos氏とともに2019年にオープンアクセスで刊行しておられます。Towards 3D Scholarly Editions: The Battle of Mount Street BridgeTextuality in 3D: three-dimensional (re)constructions as digital scholarly editions なのですが、前者は具体的な事例を踏まえた実践論、後者は方法論に重きをおいた 論文のような感じです。

Susan Schreibman先生と言えば、アイルランド文学研究をバックグランドに持つデジタル・ヒューマニティーズの研究者であり、デジタル・ヒューマニティーズという言葉を(おそらく)初めて使った A Companion to Digital Humanitiesというこの分野の基本書(現在はこれの改訂版が出ています)の3人の編者のうちの一人であり、TEI (Text Encoding Initiative) にも力を入れていて、学術編集版(いわゆる校異本・校訂本)の表示システムであるVersioning Machine の開発プロジェクトを率いた人としても知られています。日本にも何度かいらっしゃってDHに関する講演やTEIのワークショップを開催してくださったりしました。コロナ前は世界中を飛び回っておられて、学問的にも地理的にも幅広い視野でデジタル・ヒューマニティーズに取り組んでおられる研究者の一人かと思います。

さて、その Schreibman先生が、しばらく前から3Dに取り組んでいる、ということになれば、これは期待せざるを得ません。すでに上に挙げた2つの論文で充実した成果報告がなされていますので、詳しくはそちらをご覧いただけたらと思いますが、ざっと見ての現在の印象を少しだけメモしておきたいと思います。

基本的に、上記の研究は、それまでSchreibman先生が取り組んできたテキストによる学術編集版、つまり、いわゆる校異本とか校訂テキストのような、確かなトレーサビリティを含む学術研究に耐え得る信頼性を持った版を3Dで作るとしたら、換言すれば、これまでの学術編集版におけるテキストを3Dに置き換えるとしたらどう考えるべきか、という問題に取り組んでいるように思われます。

テキストにおける学術編集版というのは、テキストならではの抽象性・捨象性によってずいぶん楽になってはいるものの、書かれていることを学術的な証拠として用いるためにはどうすべきかという、紙媒体の時代、とりわけ活版印刷出現以降の苦闘の歴史が、デジタル媒体の登場により戦線拡大してしまい、Schreibman先生も注力してこられた TEI (Text Encoding Initiative) ガイドラインなどは、その課題にがっぷり四つに組んできたという経緯があります。多様な注釈や文脈情報をテキストでもその他の様々なメディアでも組み込んでしまえるという利便性をどう活用するか、といった拡張的・開放的な課題だけでなく、それまでは暗黙的に共有されてきた曖昧さをどう表現し、それをどう受容するか・されるか、という、いわば内省的な事柄も、デジタルになってから、より重要な課題になっています。そのようなデジタル学術編集版の(30年ほどですが)伝統を踏まえて、研究に耐え得る3Dの版を作るとしたら…ということで、テキスト研究での課題を援用しつつ色々な検討が行われているようです。そのあたりの検討は、さすがに読み応えがあります。そこで参照されている関連研究も含めて、ぜひ読んでおきたいところです。

実装に関しては、プラットフォームが安定しないためにテキストに比べて寿命が短すぎることが課題としてあげられていますが、しかしながら、デファクト標準に沿っておく方が内容に注力した議論ができるということで、現在は Unityを使っておられるようです。Unityはビデオゲーム開発のためのゲームエンジンとして100万人以上の開発者(ゲーマをする人ではなくて作る人)が使っているのだそうで、3D環境を構築する上でとても便利なのだそうです。もちろん、広く採用されているがゆえに作り方・使い方を知っている人が多く解説文書も多い、ということもあります。

この種のものとしては、ある時期、Second Lifeが広く使われていた時期がありましたが、価格設定の変更で教育利用の優遇措置がなくなったのでほとんどの研究プロジェクトが消滅した、とのことです。これもなかなか残念なことです。

ちなみに、人文学での3Dの利用には、個々の事物のデジタル複製を作成して閲覧用としたり、計測に利用したりと、様々な利用方法がありますが、そういう意味で、ここで言う学術編集版のための3Dの利用、というのは、そういった色々な使い方のなかの一つとみることもできるでしょう。

さて、このようにして3Dの学術編集版を作ろうとすると、時系列を入れざるを得ず、結局4Dになってしまうようです。4Dミラーワールド、という話は、ヨーロピアーナのリーダーがデジタル文化資料の近未来として描いていたことでもありますので、欧州各地でそういう方向に向かおうとする雰囲気ができつつあるのかもしれません。

というわけで、ここでもやはり3D+時系列としての実質的な4Dモデルが作成されます。題材は、1916年アイルランドでのイースター蜂起のさなかの水曜日、マウント通りが運河を越える橋で起きた戦闘の経過です。Schreibman先生は、このプロジェクトの前には Letters 1916-1923という、この時期に書かれた書簡群をクラウドソーシング翻刻するプロジェクトを率いておられたので、そちらでの成果を継承しておられる面もあるのかもしれません。

f:id:digitalnagasaki:20210310001928p:plain
Letters 1916 の成果の一部

3D空間をどのように構築するか、ということは、軍事史家とのやりとりの中で決めていったようで、テクスチャをなるべくきちんと表現することや、アバターを登場させないようにすることなど、読者(閲覧者)がこの学術編集版をどう理解するか、かれらにどう理解させるべきか、という観点から検討が行われたようです。他にも、構築にあたっての色々な検討は、学術編集版のあるべき姿を考える過程として興味深いもので、時間があればぜひ読んでみていただきたいです。

このようにして、当該地区の3D地図をUnity上に構築し、そこに研究資料として得られた情報を展開していき、時空間の中でそれらの情報を確認していけるようにする、というのが、この3D学術編集版がもたらす基本的な要素のようです。このことが、史料批判も含めて様々な可能性をもたらしてくれるであろうことは、門外漢でも期待してしまうところです。

そのようなことで、雑ぱくな感じになってしまいましたが、デジタル・ヒューマニティーズにおける最近(といっても2年前ですが0の3Dの状況の一つとしてご紹介させていただきました。

ちなみに、私も、2017年くらいからUnity使って3Dデジタル学術編集版を作りたいと考えていたのですが、この学術編集版の話を聞いたとき、(2019年のユトレヒトでのDH学会のパネルセッションで 知ったのですが)、私の考えていたものとはまったく観点もコンセプトも違っていて、3Dが導入されると学術編集版もかなり多様化しそうである、と思ったことでした。私が考えていたものというのは、 その後も時間も予算もなく、なかなか進まないまま現在に至り、このままお蔵入りしてしまうのかな…と思っているところです。

TEIガイドラインにルビが導入:人文学向け国際デファクト標準に沿った日本語テキストデータの作成が容易になりました

人文学向けデジタルテキスト作成の国際デファクト標準、TEIガイドラインでルビが導入されました

2月25日付けで、TEI協会が策定・公開している人文学資料のデジタル構造化の国際デファクト標準である TEI ガイドラインの version 4.2.0がリリースされ、 日本語のルビが導入されました(リリースノート)。

これにより、ルビが付された膨大な日本語テキスト資料をTEIガイドラインに準拠して構造化することが、これまでとは比べものにならないくらい簡便になりました。このことは、 国際的な人文学向けデジタルテキスト構築の流れの中に、ルビ付の日本語テキストデータをそのまま組み込むことができるようになったということでもあります。

注:ルビ以外の本文外要素、いわゆる訓点や脚注・欄外注などの色々な要素は基本的にTEIガイドラインでは昔から対応可能でした。(詳しくはこちら)さらに言えば、ルビも工夫すれば記述できていましたが、それを単純に「ルビ」という構造として記述できるようになったのが今回の「ルビの導入」です。

TEIガイドラインが欧米の人文学研究者コミュニティによりニューヨーク・ポキプシーで始まって以来、34年目にしてようやくの画期的な出来事です。TEIガイドラインが始まったころは多言語テキストを作成するだけでも大変な事でしたが、多言語(文字)を一つのコード表で扱うUnicodeの普及やコンピュータ処理、ネットワーク転送の高速化といった技術の進歩によって、技術的には可能になってきたものでした。しかしながら、人文学一般におけるテキスト資料の構造としての必要性という観点からは、特定の言語文化圏に根ざした構造を認めることはハードルが高く、そういった観点からルビの導入にはなかなか難しいものがありました。

TEIを策定するコミュニティは人文学向けデジタル資料を適切に構造化したいという組織や人が集まっています。そして、そこで選挙で選ばれたメンバーから成る技術委員会が中心になって 策定しているのがTEIガイドラインです。したがって、それに積極的に関わりたいという意思を持つ人・組織が集まった任意団体として運営されてきており、組織が拡大するに つれて、技術が発展するにつれて、様々な分野への細やかな対応が可能になってきています。たとえば、2011年12月には手書き資料の翻刻をより厳密・忠実に行うこともできるようにするための 大規模なアップデートが行われたり、2015年4月には書簡を機械可読処理しやすくするためのアップデートが行われたり、2020年8月にはLinked Data等の本文に直接書き込まれない データを書きこむためのエレメントを導入したりしています。そのようななかで、今回、ルビの導入がTEIガイドラインのコア要素に組み込まれる形で行われました。

今回のルビの導入は、日本のテキスト資料を扱う人々にとって有益というだけでなく、 漢字文化圏という巨大なテキスト群を抱える地域の周縁においてそれを読解するために生み出されたローカルルールが、 人文学の研究手法に関する国際的なコミュニティにおいて対処すべき一つの構造として受容されたということでもあります。換言すれば、欧米外の地域における多様なテキスト文化のローカルな慣習にも同等の価値を置くという、 コミュニティからの正式な表明でもあります。 このことについて、TEI技術委員会の英断と、そこに至る状況を醸成してきたコミュニティに深く感謝しております。 一方、このような状況を作り出すことに日本語文化圏が貢献できたということは、 テキストを読むことに親しんできた日本語圏の先人達の膨大な積み重ねが結実した結果でもあり、その意味では感慨深いものがあります。

というわけで、ここまでの流れを少し個人的な視点で以下にまとめておきたいと思います。

ここまでの流れをおおまかに

ここに至るまでには、TEIコミュニティへの東アジア研究のコンテクストからの働きかけがありました。流れとしては1990年代前半に一度盛り上がった時期があった ようですが、私は直接には触れることがなく、流れとしてもいったん切れてしまったような感じがあります。その後、2006年に、クリスティアン・ヴィッテルン先生が中心となって 京都大学人文科学研究所の21COEプロジェクトで開催されたTEI Day in Kyoto 2006が、現在の流れを作るきっかけになったように思います。

その後、TEIの国際化という観点では、TEIガイドラインのタグ・エレメントの説明部分を多言語化するというプロジェクトがあったようで、日本からは鶴見大学の大矢一志先生が頑張ってくださり、タグ・エレメントの説明を日本語で読むことができるようになりました。

さらにしばらく時間が空きますが、この間、個人的には、TEIのスペシャリストが日本に来てくださったのでTEIのセミナーをやっていただいたり、日本デジタル・ヒューマニティーズ学会が設立されたのでそこでまたTEIのセミナーを企画してみたり、ということを細々とやっておりました。そうこうしながら色々課題を整理してきて、やはりルビだけはなんとかしなければ、ということと、一方で、日本語資料の場合にはどのように使うべきかという日本語で書かれたガイドラインが必要であることを痛感し、しかし、一人で頑張ってもどうにもならないので、どうしたものかとあれこれ案を練っておりました。

結局のところ、欧米資料が主眼になっているTEI協会にも歩み寄ってもらわないと問題は解決しないだろうと思い至り、 主に科研費事業「仏教学新知識基盤の構築―次世代人文学の先進的モデルの提示(代表:下田正弘東京大学教授)」の下、 国際コミュニティでのローカルルールの重要性についての 議論を始めました。ちょうど、デジタル・ヒューマニティーズの国際コミュニティでもグローバル化が大きな課題になっていましたので(今もそうですが)、 その流れの一環という位置づけも意識しながら、ポーランドのクラクフで開催されたDH2016で以下の発表を行い、それを以て、Charles Muller氏とともにTEI協会に東アジア/日本語分科会の正式な設立を申し入れました。

Nagasaki, K., Tomabechi, T., Muller, C., Shimoda, M. (2016). Digital Humanities in Cultural Areas Using Texts That Lack Word Spacing. In Digital Humanities 2016: Conference Abstracts. Jagiellonian University & Pedagogical University, Kraków, pp. 300-303.

そこで、2016年には東アジア/日本語分科会の設立が認められ、さらにそのなかに運営員会を設立、初期メンバーとして岡田一祐氏、中村覚氏、永崎、ということで、日本語ガイドラインやルビ導入のための提案書の作成に着手しました。その後は、勉強会や翻訳会などをこまめに開催しながら、作成した情報やデータをGitHubに集積していき、主に中村覚氏により開発された様々な視覚化ツールも提供されるようになり、日本国内でTEIに準拠したデータを作成する研究プロジェクトも徐々に増えていきました。対応するプロジェクトが増えると用例が増えて、使い方もわかりやすくなっていくという循環がようやくできてきたのもこの頃です。

TEI協会側でも国際化に関する動きが進み、2018年に初めての欧米域外での会員総会としてTEI2018@Tokyoを日本デジタル・ヒューマニティーズ学会(JADH)との共催で開催し、2020年2月にはInternationalization (I18n) Working Group が設立され、多言語利用のための環境整備が始まったりもしました。

さらに、同じ時期には、延喜式のTEIエンコーディングへの取り組みを通じて小風尚樹氏が単位の記述に関する問題提起を行い、一連の議論を経て2019年8月に<unitDecl>関連のタグが ver. 3.6.0に導入されました

そのようななかで、ルビ導入の提案書は、平仮名の研究者である岡田一祐氏を中心として運営委員会で作成されました。これもオーストリア・グラーツでのTEI協会会員総会で以下の研究発表をするなど、相応の時間を要し、深夜に2度の対面オンライン技術委員会に運営委員皆で参加し、Githubでも色々な議論がありましたが、最終的には、TEI技術委員会の皆様のご理解と、特に日本語に理解のあるヴィクトリア大学のMartin Holmes氏の献身的な協力もあり、なんとか導入に至った、という次第です。version 4.2.0のコードネームが「ruby」となっているところからも、技術委員会の方々の本気度が感じられるところでしたが、最終的に、<ruby>はTEIガイドラインのコア要素の中に組み込まれることになりました。今後のガイドラインの発展のことを考えるなら、かなり大きな決断だっただろうと想定されます。

Kazuhiro Okada, Satoru Nakamura, Kiyonori Nagasaki, An Encoding Strategic Proposal of “Ruby” Texts: Examples from Japanese Texts

他にも色々な状況があり、全体をきちんと記述できているわけではないと思いますが、筆者からみえている、本件に関わる状況は大体このような感じでした。日本文化をデジタル世界に通用するものにしていくために やらねばならないことはまだまだ山積しておりますので、みなさまのお力をぜひ発揮していただきたく、今後ともよろしくお願いいたします。

CLARIN-ERIC/欧州の言語資源データインフラについて

欧州の言語資源データインフラとして運用されているCLARIN-ERICについて、ちょっと言及しなければならないかもしれないので 、CLARIN in a nutshell | CLARIN ERIC から、少しメモをしておきます。

CLARIN は、"Common Language Resources and Technology Infrastructure"の略。言語資源全般と技術のインフラ。

人文・社会科学分野の研究者を支援するために、シングルサインオン型のオンライン環境を通じて、 ヨーロッパ中のすべてのデジタル言語リソースやツールにアクセスできるようにするべく始まった研究インフラ。

2012年にCLARIN ERICが設立された。それは、人文科学や社会科学の研究のための言語データやツールの共有、利用、 持続可能性を支援するインフラストラクチャを構築し、維持することを使命とした。

現在CLARINは、社会科学や人文科学の研究者やもっと広範な研究者のために、デジタル化言語データ(書き言葉、話し言葉、マルチモーダル形式) への簡単で持続可能なアクセスを提供している。 さらにCLARINは、高度なツールも提供している。それは、データセットがどこにあっても、発見、探索、利用、アノテーション、分析、結合できるものである。 これは、言語データリポジトリ、サービスセンター、ナレッジセンターといったセンターのネットワーク化された連合によって可能となるものであり、 参加国のアカデミックコミュニティのすべてのメンバーがシングルサインオンでアクセスできるようになる。 データコレクションを組み合わせたり、異なるソースのツールを連結して複雑な操作を実行したりして、 研究者の作業をサポートすることができるようにするため、異なる機関のツールやデータは相互運用可能となっている。

CLARIN のインフラストラクチャは多くの国で完全に稼働しており、多くの参加機関がデータ、ツール、専門知識へのアクセスサービスを提供している。 同時に、最近参加したいくつかの国では、CLARINのデータセットとサービスが継続的に更新され、改善されている。 サービスのページでは、現在アクセス可能なサービスを紹介し、様々なサービスを誰がどのようにアクセスできるかを説明している。

ついでに、ERICって何?という話もCLARINのサイトに乗っている情報で簡潔に。

CLARINは分散型デジタルインフラストラクチャであり、ヨーロッパ中の大学、研究機関、図書館、公文書館などの機関が参加している。 すべての参加機関に共通しているのは、利用者である研究者のために、デジタル言語データコレクションへのアクセス、 それらを扱うためのデジタルツール、そして、専門知識を提供していることである。

CLARIN のガバナンスと調整機関は ERIC(欧州研究基盤コンソーシアム)である。 ERIC は、2009 年に欧州委員会によって設立された国際的な法人である。CLARIN ERIC のメンバーは政府または政府間組織である。2012年以降、いくつかの国が正会員として、 または オブザーバー(正式加盟に向けての準備をする)として参加している。最終的な目標は、すべてのEU加盟国とその関連国、および欧州内外の第三国を含めることである。

CLARINは、欧州研究インフラ戦略フォーラム(ESFRI)の欧州研究インフラロードマップに選定された研究インフラの一つである。 2016年に、CLARINはESFRIの新しいロードマップのランドマークという位置づけになった。

CLARIN インフラの構築は、9 名の設立メンバーで CLARIN ERIC が設立された2012 年 2 月 29 日に正式に開始された。 CLARIN ERIC の主な業務は、CLARIN インフラの構築、運営、調整、維持管理であり、研究活動を実施したり資金提供したりすることはない。

CLARIN ERICは、欧州委員会によるCLARIN準備段階プロジェクト(2008-2011年)の財政支援を受けて設立されたが、現在は参加国が全額を出資している。

ケンブリッジ大学デジタル図書館の日本資料の書誌情報を視覚化してみる

本日は、第3回 日本宗教文献調査学 合同研究集会という会合でパネルディスカッションの司会をさせていただきました。 司会が自分が言うのもなんですが、大変興味深い議論が行われたようにも思いまして、ご参加いただいたみなさまのおかげで意義のある場になったように思いました。

もし、このパネルディスカッションの場でこういう話になった場合に、ということで少し用意したネタがあったのですが、結局披露することができずに お蔵入りとなってしまったのでこちらで紹介させていただきます。内容は表題の通りです。

ケンブリッジ大学デジタル図書館では、幅広い分野をまたぐデジタル図書館を公開していて、サブジェクト・ライブラリアンが 付与したやや詳細なメタデータがCC BY-NC-NDで公開されています。(欧州の文化機関から公開されているメタデータですがCC0ではない という点も留意していただきたいところです。)

このメタデータは、TEI (Text Encoding Initiative) ガイドライン(本家英語版日本語解説版)に準拠して作成されており、用意された情報に関しては機械可読性がかなり高いものと なっております。当初はケンブリッジ大学図書館日本司書の小山さん等、当該図書館の人達がメタデータをつけていたような感じがしますが(この点、間違えていたら ご教示ください)、途中から立命館大学アートリサーチセンターの方々が参入してがんばってくださったようで、日本文化資料だけで463件が画像(IIIF対応)と ともに公開されています。

このTEIガイドラインに準拠したメタデータには、いくつかの特徴がありまして、特に興味深いのは、来歴情報、provenanceが割とよく書いてあり、 そこに登場する人物を同定できるようにしている、という点です。そうすると、この書誌情報データを一通り取得すれば、たとえば以下のような ことができます。

f:id:digitalnagasaki:20210220131545p:plain

これは、「ケンブリッジ大学デジタル図書館における日本資料の入手に関わった人の 貢献の割合をTEI ガイドライン形式の書誌情報データから取得・表示」したものです。 日本資料のTEI/XMLデータを一通りダウンロードしたあと、それをPythonでささっと処理してデータを数えて、 それをエクセルに入れてグラフにしたというものです。

さらに、この情報と、本の刊行年を組み合わせると、以下のようなものを作れます。こちらは、資料を入手した人ごとにわけて、それぞれの刊行年をタイムライン上に表示したものです。 なお、このインターフェイスはこちらでぐりぐり動かせます。

f:id:digitalnagasaki:20210220131809p:plain

f:id:digitalnagasaki:20210220131828p:plain

各資料名をクリックするとケンブリッジ大学デジタル図書館のその資料のページに飛ぶようになっています。

これはあくまでも一例ですが、TEIガイドラインは書誌情報記述のために色々な細かなルールを用意していて、これらを活用することで、上記のようなものだけでなく、様々な視覚化や分析が可能となります。

さて、これを実際にどういう風にやればいいのか…というあたりは、今度、そのうちまた書かせていただきたいと思います。とにかく、詳しい書誌情報をきちんと機械可読に書くことができれば、 資料についての分析方法がとても多角的になるということと、西洋中世写本ではこういうことがすでにかなり広く行われているようである、ということで、今回はここまでとさせていただきます。

一つのフォルダの中のファイルのファイル名をエクセルを介して一括で変更する方法@Windows10

Windowsで、一つのフォルダの中のファイルのファイル名を一括で変更したいときがあります。フリーソフトでそういうことをやってくれるものもありますし、玄人的な方法なら本当にいろんな方法があります。

でも、Windows10で普通にワードとかエクセルを使ったりしているくらいだと、玄人的な方法と言われても困ってしまうこともあると思います。そこで、エクセルを 使うことで、やや応用性の高い形で、一括でできるけどそんなに難しくない(かも)、という方法をちょっとご紹介します。

基本的に、ファイル名の変更というのは、Windows10だとパワーシェルにコマンドを打ち込むのが標準的にできる方法の基本です。たとえば以下のように、

パワーシェルのコマンド例

> mv test2.text test3.txt

というコマンドを入力すればできます。ですので、一つのフォルダの中のファイル名を一括変更したい場合は、

 mv test2.text test3.txt
 mv test21.text test31.txt
 mv test23.text test33.txt

というテキストを作ってパワーシェルに貼り付ければ、それぞれがコマンドとして機能することになります。そこで、このような テキスト(コマンド一覧)を作成することを目指してみましょう。

最初に必要なのは、変換したいファイル名の一覧の取得です。ここでは、 ファイル名を1行に一つずつ取得する必要があります。このための方法は色々あるのですが、簡単な 方法として、パワーシェルを使う方法があります。その場合、以下のように 「対象ファイルが入っているフォルダを開いてそこでシフトを押しながら右クリック」してください。そして、「Powershellウインドウをここで開く」を選んでください。

シフト+右クリックでパワーシェルを開く

ここで、以下のコマンドを入力してみてください。(以下のような場合、「ls」と入力した後にキーボードのEnterキーを押してください)

> ls

そうすると、以下のようにファイル名の一覧が表示されるはずです。ここで、名前を変更したいファイルのファイル名が一覧されるかどうか確認してみてください。

変更したいファイルの名前の一覧がでてきいたら、先に進みましょう。ここでは、ファイルの最終変更日付なども表示されていてちょっと使いにくいです。そこで、 以下のコマンドを使ってファイル名のみを一覧表示させます。

> ls -Name

そうしましたら、このファイル一覧をとりあえずテキストエディタなどにコピペします。

ここで注意しなければいけないのは、これらのファイル名では空白(スペース)を含んでいます。 スペースを含んでいる場合は「"」でファイル名を囲む必要があります。つまり

"スクリーンショット 2021-02-12 181746.png"

こういう感じです。

ここまでくれば、テキスト変換が得意な人ならテキストエディタでもできるかもしれませんが、そういうのもあんまり得意でない人は、エクセルでこういうデータを作るとちょっと簡単です。 繰り返しになりますが、目標は、以下のような文字列を作成してパワーシェルに貼り付けることです。

mv "スクリーンショット 2021-02-12 181746.png" "sc-2021-02-12 181746.png"

さて、これを以下のようにエクセルに貼り付けまして、変換後文字列も作成して、以下のようにしてみます。 元の文字列はB列で、A列には"mv " (mvの後ろに半角スペースを忘れずに)を入れておきます。C列の変換後文字列は、 たとえばテキストエディタなどで作成してから貼り付けてもいいですし、エクセルの検索置換機能で 作成してもいいでしょう。

それから、ファイル名(B列かC列)文字列に空白が入っている場合は、ダブルクオーテーションで囲む必要がありますが、これはテキストエディタで やってもいいですが、エクセルでもできます。エクセルだと以下のような関数をセルに書くことになります。

=""""&B1&""" "

最終的に、これをパワーシェルに貼り付けるわけですが、このまま貼り付けるとうまくいきません。これをうまく行うためには、 以下のような関数(=A10&C10&B10)で一つのセルにまとめて、それをパワーシェルに貼り付けるとよいです。

貼り付けてうまくいくと、以下のようになります。

このやり方は応用範囲が非常に広いので、プログラミングは覚える気はないけどWindowsで何か便利な小中規模の一括処理をしてみる際にはぜひ色々ご活用ください。