仏典のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました

プログラミング・レッスン TEI

SAT大蔵経データベース研究会で公開している仏典（勝鬘経義疏）のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました。例によって、Google Colab上で動かせるようにしております。それから、見本ということで、変換後のHTML版は、とりあえ…

2022-11-04

TEI利活用セミナーを開催します

明日（2022/11/5）の11:00-17:00、TEI利活用セミナーというのを開催します。参加費無料・要申込み、です。参加申込みはこちらからお願いいたします。 TEIに準拠してファイルを作ったけど、これをどう扱えばいいのか…とか、 TEIに準拠して作られたファイルが…

2022-10-29

TEI/XML利活用の基礎：PythonでTEI/XMLファイルの地理情報を地図上にプロットする

TEI デジタル小技デジタル人文学研究データプログラミング・レッスン

プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目さ…

2022-10-28

くずし字OCR等の動向を踏まえて、研究者の方々に期待すること

いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRを…

2022-10-07

人文学のためのテキストデータ構築入門を教科書として使う場合

TEI デジタル人文学研究データ

『人文学のためのテキストデータ構築入門』は、表題の通り、人文学のためのテキストデータ構築全般についての入門書という位置づけの本ですので、教科書として使っていただくこともできます。ただし、色々な要素を含んでいますので、用途に応じて取捨選択し…

2022-10-07

TEI準拠テキスト作成の入門セミナーを実施します

TEI オープンアクセス研究データデジタル人文学

2022年10月10日、11:00～17:00（昼休みは12:30-13:20くらい）に、オンライン（Zoom）にて、TEI入門セミナーを実施します。「人文学のためのテキストデータ構築入門」の第2部の第四章を中心に、TEIによるマークアップ手法について解説します。本で独習するこ…

2022-10-01

シェイクスピア戯曲の文法的特徴を簡単に調べてみる

TEI デジタル人文学デジタル小技研究データ

本日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポ…

2022-09-21

人文学データにおけるジェンダーの記述手法がTEIガイドラインに導入されるようです

先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI （Text Encoding Initiative）というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、…

2022-08-16

『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します

すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。このイベントは、参加費無料・要申込みです。今回は、『人文…

2022-08-09

京大OCW閉鎖の件に寄せて：これからの可能性だったものの一つ

IIIF IIIF応用 Mirador オンライン授業オープンアクセス

京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア（OCW）」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくな…

2022-07-31

人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

TEI デジタル人文学デジタルアーカイブ

https://bungaku-report.com/blog/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のための…

2022-06-05

NDL Ngram viewerの正規表現検索が面白い

正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ？」という感じだと思います。人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、…

2022-04-18

今時の簡単なXML論文ファイル作成提出方法／デジタル・ヒューマニティーズ国際会議での事例

論文の本文をXMLで記述しよう、という取り組みは、世界的にはかなり進んでいるようであり、日本でもJ-STAGEが「全文XML」ということで推進中です。この7月に東京大学が開催予定の、国際デジタル・ヒューマニティーズ学会連合（ADHO）による国際学術大会 DH2…

2022-03-30

日本発のプレプリントサーバJxivに論文を載せてみました

オープンアクセス

いわゆる10兆円ファンドの運用主体としてますます注目を浴びる科学技術振興機構（JST）が、最近、プレプリントサーバの運用を開始したそうです。その名もJxiv。すでに海外にいくつか著名なプレプリントサーバがあり、国内でも筑波大学が筑波大学ゲートウェイ…

2022-03-09

SSH Open Marketplace：欧州の人文・社会科学分野の研究資源カタログはクラウドソーシングのようでした

オープンアクセスデジタル人文学研究データ

欧州では European Union’s Horizon 2020 project の下、研究インフラの構築が盛んに行われています。 European Research Infrastructure Consortium (ERIC) を中心として進められているようで、基本的には理工系の話なのですが、欧州では人文・社会科学に…