TEI の検索結果:

歌合絵巻テキスト構造化&IIIF画像連携の成果が公開されました

…という対戦を色々な角度から楽しめるいビューワが公開されたのでした。 このプロジェクトには多くの人が関わり、校訂本文・現代語訳・英訳を作成され、また、テキストはTEIに準拠した歌合向けのマークアップとIIIF画像向けのマークアップが行われ、さらにそのTEI準拠テキストとIIIF画像を連携させつつ同時にうまく表示させるビューワの開発も行われました。詳細はこちらをご覧いただければと思います。 そのようなことで、ぜひこの虫合絵巻ビューワをお試しして、虫合の世界を堪能してみてください。

TEI用ビューワでローカルPC上の画像を表示するには(画像ビューワ組込み編)

「TEI用ビューワでローカルPC上の画像を表示するには」 の続編、今度は画像ビューワ組込み編です。この辺からちょっとややこしくなってきます。 まず、画像ビューワとして OpenSeadragon を組込みます。そのためには… なんでもいいのでサンプル画像を用意して、sample.jpgというファイル名をつけておいてください。 それから、こちらのzipファイルをダウンロードして、前回作成したhtmlファイルと同じフォルダで展開してください。 そうすると、大体以下のような感じにな…

TEI用ビューワでローカルPC上の画像を表示するには(準備編)

TEI用ビューワにローカルPC上の画像を読み込んで拡大縮小させつつ領域を画像上に表示したい、というニーズが最近増えてきました。IIIFなら簡単なのですが、ローカルPCだと微妙に難しいところがあります。Webブラウザのセキュリティが色々細かくなってきているので、それをどうパスするか、という課題もあります。そのあたりをクリアしたTEI用ビューワを最近2つほど作成しました。日本近代文学の草稿研究向けのものと、和歌・歌合研究のためのものです。基本は同じですが、今のところそれぞれ少しニ…

書誌情報作成/図書館情報学/デジタル・ヒューマニティーズ/デジタルアーカイブに関心がある方々におすすめの講演会

…(火)、連続講演会「TEI (Text Encoding Initiative) × Library が拓くデジタル人文学と図書館の未来」が開催されます。 ケンブリッジ大学の、デジタル図書館の責任者であるHuw Jones氏と中東専門部門長のYasmin Faghihi氏をお招きしての講演会です。これがなぜ、「書誌情報作成/図書館情報学/デジタル・ヒューマニティーズに関心がある方々におすすめ」なのか、少しご説明をさせていただきます。 ケンブリッジ大学デジタル図書館では、古典籍…

仏典のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました

…仏典(勝鬘経義疏)のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました。例によって、Google Colab上で動かせるようにしております。 それから、見本ということで、変換後のHTML版は、とりあえず以下のURLにて閲覧できるようにしています。 https://www.dhii.jp/dh/tei/2185/2185.html まだ完成版からはほど遠いですが、これくらいやっておけば、TEI/XMLファイルのマークアップをする人達には便利なのではない…

TEI利活用セミナーを開催します

…:00-17:00、TEI利活用セミナーというのを開催します。 参加費無料・要申込み、です。参加申込みはこちらからお願いいたします。 TEIに準拠してファイルを作ったけど、これをどう扱えばいいのか…とか、 TEIに準拠して作られたファイルが自分の分野にはたくさんあるようだけど、これをどう使えばいいのか…? というような人に向けて、ごく初歩的なことを知っていただく会です。 具体的には、 Oxygen XML Editorを用いたXPathによる検索とデータの抽出 Pythonを…

TEI/XML利活用の基礎:PythonでTEI/XMLファイルの地理情報を地図上にプロットする

…で、漱石書簡の3つのTEI/XMLファイルに含まれる座標情報をPythonで地図上にプロットできるようになるチュートリアルをGoogle Colabに作ってみました。ご興味がおありの方はぜひ以下のURLにアクセスしてみてください。 colab.research.google.com これを一通りやってみると、以下のような地図を作れるようになります。(以下のものはサンプル画像ですが、このような地図をOpenStreetMapを利用したインタラクティブなものとして作成できます。)…

人文学のためのテキストデータ構築入門を教科書として使う場合

…す。手書き文字認識とTEIガイドラインに準拠したデータの作り方と使い方が解説されています。使い方の方を深めたければ、フォローアップサイトの方に詳しい解説と用例があります。 TEIガイドラインに準拠したテキストデータ作成の教科書として使いたい場合 手書き文字認識はちょっと授業などで扱うにはややこしそうだしテキストデータそのものについての解説も特に必要ないので、TEIガイドラインの部分のみを授業で扱いたい…という場合には、以下のような順序で使っていただくことをおすすめします。 第…

TEI準拠テキスト作成の入門セミナーを実施します

…ン(Zoom)にて、TEI入門セミナーを実施します。 「人文学のためのテキストデータ構築入門」の第2部の第四章を中心に、TEIによるマークアップ手法について解説します。本で独習することもできるようになっていますが、話を聞きながら誰かと一緒に取り組んでみたいという方や、TEIを誰かに教えるにあたって、教えるポイントを確認してみたいという方は、ぜひこの機会にどうぞ。 https://bungaku-report.com/books/ISBN978-4-909658-84-5.ht…

シェイクスピア戯曲の文法的特徴を簡単に調べてみる

…キストに入れ替えて、TEI/XMLファイルがあるとどう便利なのか、という簡単なPythonプログラムをGoogle Colab上に作成してみました。これは、ボタンクリックすれば実行されるものですので、プログラミングをまったくできなくてもお試ししていただくことができますが、解説に関してはPythonを少し勉強したことがある人向けのもので、細々とプログラムの中に書き込んでおります。でも、むしろ、これをみてPythonを勉強してみようという気持ちになってくださる人がおられたら、それ…

人文学データにおけるジェンダーの記述手法がTEIガイドラインに導入されるようです

…ューカッスル大学にてTEIカンファレンスが開催されていました。TEI (Text Encoding Initiative)というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、それを策定する団体のことでもあります。前者をTEIガイドライン、後者をTEI協会(Consortium)と言います。 このTEIガイドラインの詳細については、最近、日本語の解説書『人文学のためのテキストデータ構築入門』(文学通…

『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します

…て、この本を踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。 今回は、『人文学の…データ構築入門』の第一部、第二部のうち、TEIガイドラインに関する部分を中心にしてセミナーを実施します。Transkribusの話はしませんので、あらかじめご了承ください。 予定している内容は大体以下の通りです。 10:00-11:30 人文学のためのテキストデータ構築とTEIガイドライン 12:30-14:30 TEIガイドライン実践演習 14:45-16:…

人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

…g/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものです。日本語文化圏でも、TEI ガイドラ…

今時の簡単なXML論文ファイル作成提出方法/デジタル・ヒューマニティーズ国際会議での事例

…。(ここでのXMLはTEIガイドライン準拠のものですが、JATS/XML等にもおそらく自動変換できると思われます)。 論文執筆者の手順 さて、これを論文執筆者の手順の方からみてみますと、 論文執筆者は自分の投稿システムIDでXMLファイル作成システムにログイン 自分の名前・所属・発表タイトル等が入力された、MSワードかLibreOfficeのテンプレートファイルをダウンロード MSワードかLibreOfficeでテンプレートファイルに本文・図・脚注・参考文献一覧などを記入 X…

SSH Open Marketplace:欧州の人文・社会科学分野の研究資源カタログはクラウドソーシングのようでした

欧州では European Union’s Horizon 2020 project の下、研究インフラの構築が盛んに行われています。 European Research Infrastructure Consortium (ERIC) を中心として進められているようで、 基本的には理工系の話なのですが、欧州では人文・社会科学にもそれなりに力が入っているようです。 たとえば、社会科学ではCESSDAやESS (European Social Survey)、 人文学ではCLA…

【頭の整理】日本での「テキストデータベース」作りのステップ6くらい

…たタグ付けのルールがTEIガイドラインであり、それゆえに、 特定の分野に偏ることなく、コミュニティに参加する人文学研究者達が取り組む分野全体に対応しつつ、 個別分野にも丁寧に配慮しようとしてきたのである。 TEIガイドラインはともかくとして、ここでは、「タグ」をつけることの可能性についてもう少し検討してみよう。 前回記事でみたように、タグの名前はタグが囲まれる文字列に対してなんらかの意味を付与することになる。 人名であったり、手紙の宛先であったり、校異情報であったり、様々であ…

【頭の整理】日本での「テキストデータベース」作りのステップ5くらい

…の種のものは、前出のTEIガイドラインが得意であり、たとえば『校異源氏物語』のある箇所をタグ付けすると以下のようになる。 ここでは、校異情報が存在する本文をまず<lem>~</lem>というタグで囲み、これに対して、校異情報を<rdg>~</rdg>という タグで囲んだ上で<rdg>タグには wit="#別陽" あるいは wit="#別國" と記載している。これは、一つ目の<rdg>は「別本の陽明本」 における記述であることを示し、二つ目の<rdg>は「別本の國冬本」であるこ…

【頭の整理】日本での「テキストデータベース」作りのステップ4くらい

… 記述手法を提示するTEI (Text Encoding Intiative) ガイドラインを定めている TEI協会の図書館分科会が 提供している Best Practices for TEI in Libraries というルールがある。 ここでは、テキストデータへのタグ付け(符号化、encoding)のレベルを以下のように5段階に分けて整理している。 Level 1: OCRによって自動生成されたテキストにそのまま自動化可能な範囲でタグ付け Level 2: 最小限のテキ…

【頭の整理】日本での「テキストデータベース」作りのステップ3くらい

…味がある人は、特に teiHeaderの章を読まれたい。 というわけで、文字をデジタルに転記する方法に関しては、まあ 大体なんとかなるとして、次に出てくるのは、誤転記である。せっかくルールを作っても、 人間だもの。間違うことは(大いに)ある。コンピュータにOCRやHTRで読み込ませても お茶目な間違いをしてくれることは大いに期待できる。それを人力で修正しても、やはり 間違いが残ってしまうこともあるだろう。では、たとえば分析のためのテキストデータとする 場合はどうなのか。誤転記…

Vue.jsで簡単地図マッピング - その1 準備編(2021/12/13追記)

前回はTEIファイルから地図マッピングをする話でしたが、今回は少し違う角度から取り組んでみます。 最近、JDCatデータのお試し検索サイトというものを作ってみました。 人文社会科学の研究データを総欄できるサイトとして最近運用が始まった JDCatというサイトがありますが、 こちらで集約して検索できるようにしているメタデータはCC0で公開されていますので、 せっかくのCC0を活かして教材作り等に使えないかということで試しに作ってみたのが 上記のお試し検索サイトです。ちなみにソー…

Digital 法寶義林 (Hôbôgirin) の作り方/TEIファイルから地図年表マッピング-その1

…ると、 サーバ側ではTEI/XMLで書かれたデータ(ファイル)をJSONに変換して返戻し、インターフェイス(Javascript)側では それを地図や年表などにプロットする、という風になっています。全体的にはよくある構成ですが、 サーバ側に置いてあるのがTEI/XMLファイルである、という点が、よくあるやり方とはちょっと違っています。 基本的に、サーバ側でデータを扱う時は、データサイズが大きくなっても大丈夫なように、検索に特化された ソフトウェアを使うのが一般的です。これも用…

サンスクリット写本 データベースを作った話

…うのは、メタデータはTEI P5の形式で用意されており、そこからいかにしてうまく 必要なデータを取り出して便利に使えるようにするか、ということでした。似たようなこと(=TEIに準拠したメタデータで古典籍の書誌情報検索を提供)をしているサイトとしては、ケンブリッジ大学デジタル図書館がありましたので、あまり凝りすぎずに、ここでできていることを目指せばいいか…というくらいに考えていたところでした。ただ、難しかったこととして、基本的に、写本の一つの束の中には複数の経典が含まれているこ…

「楽譜のデジタル化」という課題

…2000年くらいからTEI (Text Encoding Initiative) ガイドラインの勉強を開始し、デジタルテキストを用いた研究の可能性と課題について、探求と実践を繰り返してきた。デジタル化とは、単にデジタルカメラで撮影してメタデータをつけるだけでなく、全文テキストを作成し、その構造を何らかの方法で機械可読な形で共有することも含んでおり、そのようにすることで、テキストを主に用いるタイプの人文学を大いに振興することができるとともに、テキストを扱う研究の伝統的な営みを未…

人文系研究者はデジタルに手を出しても評価されない?

…し、 欧米先進国ではTEIガイドラインがあるので、まず、それに準拠しているかどうかを 確認し、準拠していれば、あとは、すでに定められた記法をどのように適用しているか、 を確認すれば済みます。もちろん、TEIガイドラインに準拠せずに成果物を作成する こともあるでしょうが、その場合は、そのようにして簡便に評価してもらえる道筋が あることを前提として敢えて茨の道を歩くことになるわけですから…ということになりますね。 欧米先進国では、とりあえずTEIガイドラインはDHの基礎の一つとし…

人文学向け電子テキストガイドラインTEI/XMLに準拠したファイルをPHPで処理するにあたって

…け構造化ルールであるTEI/XMLガイドラインに準拠して作成したファイルは、とにかく色んな方法で処理して その都度必要な状態にして利用できるのが魅力です。それについて書き始めると長くなるので詳しくは 以下のページなどをご覧ください。 bungaku-report.com なお、この記事は、PHPプログラミングをかなりやりこんでいる人向けで、TEI/XMLガイドラインに準拠した ファイルを処理するのに必須の知識ではありませんので、PHPをやってない人はここでお帰りいただく(?)…

この5年ほどのデジタル・ヒューマニティーズ学会の発表者の動向(+Palladioの使い方)

…2017年大会以外はTEI/XML準拠のデータです。TEI/XML準拠ということは、「著者のメールアドレスだけを取り出す」「メールアドレスが.comドメインなら代わりに所属情報を取り出す」といったようなことが(データがきちんと入っていれば)DOM操作で確実にできます。では、2019, 2020はどうでしょうか。これは、それぞれの学会サイトでTEI/XML準拠の発表論文データがダウンロードできるようになっていて、簡単なスクレイピングプログラムを走らせればすべて入手できます。なお…

3D学術編集版:人文学の研究成果/研究環境としての3D構築

…のうちの一人であり、TEI (Text Encoding Initiative) にも力を入れていて、学術編集版(いわゆる校異本・校訂本)の表示システムであるVersioning Machine の開発プロジェクトを率いた人としても知られています。日本にも何度かいらっしゃってDHに関する講演やTEIのワークショップを開催してくださったりしました。コロナ前は世界中を飛び回っておられて、学問的にも地理的にも幅広い視野でデジタル・ヒューマニティーズに取り組んでおられる研究者の一人か…

TEIガイドラインにルビが導入:人文学向け国際デファクト標準に沿った日本語テキストデータの作成が容易になりました

…国際デファクト標準、TEIガイドラインでルビが導入されました 2月25日付けで、TEI協会が策定・公開している人文学資料のデジタル構造化の国際デファクト標準である TEI ガイドラインの version 4.2.0がリリースされ、 日本語のルビが導入されました(リリースノート)。 これにより、ルビが付された膨大な日本語テキスト資料をTEIガイドラインに準拠して構造化することが、これまでとは比べものにならないくらい簡便になりました。このことは、 国際的な人文学向けデジタルテキス…

ケンブリッジ大学デジタル図書館の日本資料の書誌情報を視覚化してみる

TEI

… このメタデータは、TEI (Text Encoding Initiative) ガイドライン(本家英語版:日本語解説版)に準拠して作成されており、用意された情報に関しては機械可読性がかなり高いものと なっております。当初はケンブリッジ大学図書館日本司書の小山さん等、当該図書館の人達がメタデータをつけていたような感じがしますが(この点、間違えていたら ご教示ください)、途中から立命館大学アートリサーチセンターの方々が参入してがんばってくださったようで、日本文化資料だけで463…

新規開発されたJ-Stageの全文XML作成ツールにお付き合いした話(その1)

…があり、 JATSとTEIのコンセプトの違い、のような話もこってりと教えていただいたこともあり、 もちろん、最初にJ-Stageを使い始めたときにも一応全文XMLは試してみていたので、 まあ大丈夫かな…と、安易にも思ってしまったということもありました。 今にして思えば、 ツール開発1つ分か論文1本分くらいの時間を費やしてしまったので、本当に失敗だったと 思っていますが、結果として作業に慣れてしまったということと、ここまでやったのだから その試行錯誤を残しておくことで、後に続く…