デジタルアーカイブにおけるテクスト資料の扱い: oXygenで日本語解説付きTEIガイドラインを利用する

ここまで、「デジタルアーカイブにおけるテクスト資料の扱い」ということで、TEIガイドラインの解説をしてきました。しかし、実際に使ってみる話をまだ全然書いておりませんでしたので、今回は、実際に使ってみる手順のはじめのところについてご紹介したいと思います。このブログの読者の方々には日本語解説付きの方がわかりやすい人が多いと思いますので、日本語解説付きで利用するにはどうしたらいいか、ということもここで御説明しておきます。

 

まず、TEIガイドラインをテクスト資料に適用するためには、XMLエディタを利用することがほぼ必須です。Windowsのメモ帳みたいなもので頑張るという人も世の中には結構おられるのですが、TEIガイドラインみたいにかなり複雑化したXMLサブセットを簡単に扱おうとするなら、XMLエディタがなければ「視認性が悪くて使えない」ということになってしまうと思います。

 

逆に、TEIガイドラインでは、複雑化したXMLサブセットを簡単に使えるようにするために色々な工夫をしています。なかでも、スキーマファイルをきちんと用意した上にカスタマイズができるWebアプリを開発公開しているという点はなかなか素晴らしいと思います。

 

さらに素晴らしいのは、このスキーマファイルに日本語訳が付されていることです。これは鶴見大学の大矢一志先生のお仕事です。これを用いることで、XMLエディタ上でタグ(エレメント・アトリビュート)の解説を日本語で確認しながらマークアップを行うことができるようになっています。

 

しかしながら、「ではどうやって日本語解説を使うの?」「そもそもどうやってXMLエディタを使ってTEIマークアップをするの?」等々、色々な疑問があると思います。そこで、以下にそれについてご紹介していきます。

 

まず、XMLエディタ oXygenですが、これは公式サイトから30日間お試し版をダウンロードできますJavaで書かれているので、WindowsでもMac OSでも、Linuxでも普通に使えます。ダウンロード時にはそれぞれの版のためのダウンロードページがありますが、簡単インストールするためのインストーラ付きということになっていますので、自分のOSにあったものをダウンロードしてください。Windowsが64bitか32bitかについては、よくわからない場合は64bit版をダウンロード&インストールしてみて、うまくインストールできなければ32bit版を試してみるということでもよいのではないかと思います。

 

oXygenは、ライセンスキーがないと動きません。すぐに購入するのはちょっと難しいと思いますので、まずはトライアルライセンスキーを入手しましょう。こちらのページから入手できるようになっています。

 

oXygenをダウンロードしてインストールすると、初回起動時にライセンスキーを聞かれます。ライセンスキー入力欄に、入手したキーをコピー&ペーストすると、普通にoXygenが起動します。

 

さて、いよいよです。まずは、TEI/XMLで「新規作成」してみましょう。メニューバーの「ファイル」⇒「新規作成」を選ぶと

 

f:id:digitalnagasaki:20170826061308j:plain

 

 

以下のようなダイアログが現れますので「フレームワークテンプレート」⇒「TEI P5」⇒「All」を選んで「作成」ボタンをクリックしてみましょう。

f:id:digitalnagasaki:20170826061352j:plain

 

そうすると、以下のように、TEI/XMLファイルのテンプレートが表示されます。あとは、適宜、テキストやタグを入力していくことになります。まずは、タグの解説が英語のままですが、ちょっと試してみましょう。

 

f:id:digitalnagasaki:20170826061613j:plain

 

まず、例えば21行目の「Some text here.」というところに、以下のようにちょっと文章を書き込んでみましょう。

f:id:digitalnagasaki:20170826061819j:plain

 

それから、21行目の<p>の直後に<perと入力してみましょう。そうすると、その文字列を含むエレメントのうち、その箇所で使えるものをTEI/XMLのサブセットのエレメントの中から探し出してリストした上に、それぞれのエレメントの使い方の解説も以下のようにポップアップで表示してくれます。カーソルの上下キーで候補を選べるようになっており、カーソルがあたっているエレメントの解説が右側のポップアップに表示されていくようになっています。英語が得意な人や、英語中心で研究をしている方々にはこれで十分に便利だと思います。英語圏の人たちにとってはとても便利な機能です。しかし、この解説が日本語になってくれるととても便利です。そこで出てくるのが、大矢先生が作ってくださった日本語訳です。

f:id:digitalnagasaki:20170826061854j:plain

 

oXygenは、TEI/XMLのサブセットのルールを書き込んだ「スキーマ」ファイルを標準で内蔵しています。そのファイルを読み込むことで、上記のように、「そこで使えるタグの候補」をリストしたり、それぞれの解説を表示したりできるようになっています。したがって、「スキーマ」ファイルのなかのユーザに対する表示部分が日本語に訳されていればよいということになります。大矢先生が作ってくださった日本語訳版のスキーマファイルは、公式サイトとしてはTEI Romaのサイトから入手できます。が、ここでのとりあえずの目標は、日本語解説を表示することですので、TEI Romaのサイトで作成した日本語版スキーマファイルをこちらに用意してみました。とりあえず、ダウンロードして使ってみてください。入手方法はこの記事の下の方にて改めて解説しますので、自力で公式サイトから直接入手したい人はそちらをご覧ください。

 

この日本語版スキーマファイルはtei_al_ja_320l.rnc というファイル名になっていますが、ファイル名はなんでも大丈夫です。ただし、拡張子は.rncにしておいてください。では、このファイルをどうするのかと言いますと、oXygenに戻って、メニューバーの「文書」⇒「スキーマ」⇒「スキーマの割り当て」を選んでください。

 

 

f:id:digitalnagasaki:20170826063605j:plain

 

 

そうすると、以下のようなダイアログが表示されますので、ここで、「URL」の行の右の方にあるフォルダアイコンをクリックして、今回ダウンロードした.rncファイルを指定してください。それから「OK」をクリックすると、

f:id:digitalnagasaki:20170826063653j:plain

 

以下のように、4行目のところに、今回指定した.rncファイルのパスが書き込まれます。これでOKです。

 

f:id:digitalnagasaki:20170826063724j:plain

 

そうしますと、以下のように、エレメントの解説が日本語で表示されるようになります。

f:id:digitalnagasaki:20170826062217j:plain

 

それだけでなく、アトリビュート(属性)に関しても、エレメントを入力した後にスペースを入力すると候補が表示されます。

f:id:digitalnagasaki:20170826062304j:plain

 

TEIガイドラインを見ると、あまりの膨大さにめまいがしてくると同時に、海外先進国の人たちはこなものを読みこなしてマークアップをしているのか、と思ってしまいそうですが、実際には、このようにして、割と簡単に使える道具立てが用意されていて、みなさんこういうものを使ってらっしゃるようです。これだったらできるかも・・・、あるいは、誰かにやってもらえるかも・・・と思ってくださる人もおられるのではないかと思いますが、いかがでしょうか。

 

日本語スキーマファイルを公式サイトから入手する

さて、後述するとしていた、日本語スキーマファイルの公式サイトからの入手方法についても御説明しましょう。これには、TEIスキーマをカスタマイズするためのWebアプリ、TEI Romaを利用します。TEI Romaにアクセスすると、以下のような画面になると思います。ここで「Reduce」を選んで「Start」ボタンをクリックしてください。

f:id:digitalnagasaki:20170826063331j:plain

 

次に、「Laugage」タブをクリックして「日本語」を選択して、さらに「Save」をクリックしてみてください。これで、スキーマを日本語解説に切り替える設定は終了です。

 

f:id:digitalnagasaki:20170826063439j:plain

 

次に、これをスキーマとしてダウンロードしてパソコン上に保存しましょう。以下のように、「Schema」タブを選んでから「Generate」ボタンをクリックしてください。しばらく待つと、.rncファイルをダウンロード&保存するダイアログが表示されますので、ファイル名を適当につけて、保存します。これで、日本語版スキーマファイルの入手は完了です。上記のように、作業中のTEI/XMLファイルにこのスキーマを割り当ててみてください。

 

f:id:digitalnagasaki:20170826063515j:plain

 

終わりに:TEIのカスタマイズについて

 

最後に、このTEIのカスタマイズとTEI Romaについて少しだけ解説させていただきます。TEIは、このブログにてこれまでにも触れてきたように、基本的に、コミュニティがルールを作るという姿勢で運用されているものであり、「このルールを使え」と押しつけるものではありません。ユーザが必要だと思ったらルールをカスタマイズできますし、カスタマイズしたルールを全体に適用しようという議論を始めることもできます。しかし、ルールをカスタマイズすると言っても、カスタマイズしたルールを手元の作業に簡単に応用できるようにするのは通常ではなかなか困難です。そこで、TEIコミュニティでは、このTEI RomaというWebアプリを用意して、カスタマイズした場合でも簡単に手元のファイルのそのルールを適用して作業できるようにしているのです。ではどのようにすればカスタマイズできるのか、そのメリットは、というようなことは、またおいおいご紹介していきたいと思います。