2022-01-01から1年間の記事一覧

仏典のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました

SAT大蔵経データベース研究会で公開している仏典(勝鬘経義疏)のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました。例によって、Google Colab上で動かせるようにしております。 それから、見本ということで、変換後のHTML版は、とりあえ…

TEI利活用セミナーを開催します

明日(2022/11/5)の11:00-17:00、TEI利活用セミナーというのを開催します。 参加費無料・要申込み、です。参加申込みはこちらからお願いいたします。 TEIに準拠してファイルを作ったけど、これをどう扱えばいいのか…とか、 TEIに準拠して作られたファイルが…

TEI/XML利活用の基礎:PythonでTEI/XMLファイルの地理情報を地図上にプロットする

プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目さ…

くずし字OCR等の動向を踏まえて、研究者の方々に期待すること

いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRを…

人文学のためのテキストデータ構築入門を教科書として使う場合

『人文学のためのテキストデータ構築入門』は、表題の通り、人文学のためのテキストデータ構築全般についての入門書という位置づけの本ですので、教科書として使っていただくこともできます。ただし、色々な要素を含んでいますので、用途に応じて取捨選択し…

TEI準拠テキスト作成の入門セミナーを実施します

2022年10月10日、11:00~17:00(昼休みは12:30-13:20くらい)に、オンライン(Zoom)にて、TEI入門セミナーを実施します。 「人文学のためのテキストデータ構築入門」の第2部の第四章を中心に、TEIによるマークアップ手法について解説します。本で独習するこ…

シェイクスピア戯曲の文法的特徴を簡単に調べてみる

本日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポ…

人文学データにおけるジェンダーの記述手法がTEIガイドラインに導入されるようです

先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI (Text Encoding Initiative)というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、…

『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します

すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。 今回は、『人文…

京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ

京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくな…

人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

https://bungaku-report.com/blog/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のための…

NDL Ngram viewerの正規表現検索が面白い

正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、…

今時の簡単なXML論文ファイル作成提出方法/デジタル・ヒューマニティーズ国際会議での事例

論文の本文をXMLで記述しよう、という取り組みは、世界的にはかなり進んでいるようであり、日本でもJ-STAGEが「全文XML」ということで推進中です。 この7月に東京大学が開催予定の、国際デジタル・ヒューマニティーズ学会連合(ADHO)による国際学術大会 DH2…

日本発のプレプリントサーバJxivに論文を載せてみました

いわゆる10兆円ファンドの運用主体としてますます注目を浴びる科学技術振興機構(JST)が、最近、プレプリントサーバの運用を開始したそうです。その名もJxiv。すでに海外にいくつか著名なプレプリントサーバがあり、国内でも筑波大学が筑波大学ゲートウェイ…

SSH Open Marketplace:欧州の人文・社会科学分野の研究資源カタログはクラウドソーシングのようでした

欧州では European Union’s Horizon 2020 project の下、研究インフラの構築が盛んに行われています。 European Research Infrastructure Consortium (ERIC) を中心として進められているようで、 基本的には理工系の話なのですが、欧州では人文・社会科学に…

【頭の整理】日本での「テキストデータベース」作りのステップ6くらい

前回記事では、用途に応じたタグの付け方についてみてきた。 このようにして様々なタグの付け方があり、分野毎に異なるタグが用意されることになるのであれば、 タグの構造を設定したり使い方をレクチャーしたりする、かなり詳しい人が分野毎に必要となりそ…

【頭の整理】日本での「テキストデータベース」作りのステップ5くらい

前回記事の続き。 テキストデータベースが「どういう深さのものか」を決めて、それを記述するというのが前回の到達点である。 しかしながら、前回は、研究志向の強いものについては、 「Level 5: 学術編集のためのタグ付け」で一括されてしまっていた。「学…

【頭の整理】日本での「テキストデータベース」作りのステップ4くらい

テキストデータベース作りに関するメモの続き。 前の記事からくる帰結は、テキストデータの元資料への忠実さや付与される解釈の深さは、以下の2点に依拠するということになる。 ・どういう人のどういうニーズを対象とするか ・どれくらいの手間暇時間をかけ…

【頭の整理】日本での「テキストデータベース」作りのステップ3くらい

前回記事では、非ボーンデジタルなテキストデータを元資料を一致させることの難しさについてちょこちょこメモしてみた。とはいえ、そんなことばかり言っていては先に進まないので 解決策、というか、それをどう捉えるべきかということについて少しメモしてみ…

【頭の整理】日本での「テキストデータベース」作りの2つ目のステップあたり

前回記事では、「テキストデータベース」作りに関して、その意義とか、テキストデータそのものをどうやって得るか、というようなことをメモしてみた。 今回は、とりあえずテキストデータが入手できたあと、どうすべきか、ということをメモしておきたい。やや…

【頭の整理】日本での「テキストデータベース」作りの最初のあたり

標題の件につき、少し頭を整理するためにメモを残しておく。多分これが本来的なブログの使い方なのではないかと思うので、情報収集したい人にはあまり有益ではないかもしれず申し訳ないがご容赦いただきたい。 テキストデータベースを作る、という取組みは、…

DHフェス2022 が発表者(2/14締切)・参加者募集中です

2022年2月23日の13:00時から開催される、DHフェス2022 というイベントが発表者・参加者を募集しています。 sites.google.com このイベントは「人文学+デジタルな取り組みを気楽に話しましょう!」という気楽な会合で、 少し前に開催されたイベント、「言語…

日本学術会議の公開シンポジウムで人文・社会科学のデジタル研究基盤がテーマとなります

今度の土曜日、1/22に、日本学術会議の公開シンポジウム「総合知創出に向けた人文・社会科学のデジタル研究基盤構築の現在」が開催されます。 日本学術会議には「分野別委員会」があり、それぞれの委員会が分科会を設置して特定のテーマについて議論します。…