ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳

3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておら…

それでも高度なデジタルアーカイブを提供したい時は:「一次公開」「二次公開」とIIIF

以下の、前回記事の続きです。 digitalnagasaki.hatenablog.com こちらの記事では、新しいことや難しいことをすると大変だ、という話ばかり書きましたので、がっかりした人もおられるかもしれません。 たしかに、良コンテンツを持っているところでなければ高…

「デジタルアーカイブ」構築のロジと専門知識

いわゆる「デジタルアーカイブ」があちこちで構築されるようになってずいぶん経ちます。ジャパンサーチが登場したことで、とりあえず構築した後にメタデータを提供すれば、利用者に発見してもらえる可能性も高まってきました。これからますますデジタルアー…

ABBY FineReader 15で複数PDFにまとめてOCRをかけるには

ABBY FineReader 15で複数PDFにまとめてOCRをかける方法です。「一つずつファイルを開いてOCRをかける」手間を省くことができます。超快適です。 なお、ABBY FineReader は最新版ではありません。最新版を持っていないので、最新版でこれができるかどうかは…

『般若心経』の敦煌写本@フランス国立図書館を大正新脩大蔵経と比較できるツール

このところ、少しずつ時間をみつけて改良を続けている、「大正新脩大蔵経と他の木版・写本を簡単に比較できる仕組み」ですが、表示を高速化できるように色々工夫を行いまして、割とお待たせせずに表示できるようになりつつあります。 それから、「木版大蔵経…

NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に:

表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。 やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行…

デジタルアーカイブのためのプログラミングレッスン:第7回を追加しました。

デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館のNDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここま…

デジタルデータの長期保存:iPRES2022 基調講演の日本語訳が公開されました

デジタルデータはなくなってしまいやすい…という話を時々耳にします。実のところ、紙媒体と同じくらいの手間をかけてよいのであればデジタルデータの持続可能性は十分に高いと思うのですが、そうだとしても、よりよくきちんと長期保存するためには何らかのル…

AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開

このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクショ…

デジタルアーカイブのためのプログラミングレッスン第一回~第六回

デジタルアーカイブのためのプログラミングレッスン、第六回まで作成しました。ですので、改めて第一回から並べておきます。 NDLサーチのAPIを用いて、IIIF Manifestを操作してサムネイル画像を作成する、というところまでに必要な機能をプログラミング言語P…

デジタルアーカイブのためのプログラミングレッスン第五回

前回のブログ記事の続きです。今度は1回分しかなくて恐縮ですが、自作関数の作成について扱っています。第一回からみていかないとわけがわからないものですが、第一回からやっていくと、課題に必要な要素は一通り組込まれています。ぜひ、第一回から挑戦して…

デジタルアーカイブのためのプログラミングレッスン第一回~第四回

デジタルアーカイブのためのプログラミングレッスン、というのを少し作成してみています。今のところ、第一回~第四回ができております。 デジタルアーカイブに興味を持ったり、関わったりしているものの、内容面だけでなく技術面からも本格的に取り組もうと…

TEI用ビューワでローカルPC上の画像を表示するには(画像ビューワ組込み編)

「TEI用ビューワでローカルPC上の画像を表示するには」 の続編、今度は画像ビューワ組込み編です。この辺からちょっとややこしくなってきます。 まず、画像ビューワとして OpenSeadragon を組込みます。そのためには… なんでもいいのでサンプル画像を用意し…

TEI用ビューワでローカルPC上の画像を表示するには(準備編)

TEI用ビューワにローカルPC上の画像を読み込んで拡大縮小させつつ領域を画像上に表示したい、というニーズが最近増えてきました。IIIFなら簡単なのですが、ローカルPCだと微妙に難しいところがあります。Webブラウザのセキュリティが色々細かくなってきてい…

某データベース作成のログ

npm init vue@3 xxxdb cd xxxdb/ npm install npm install vuetify npm run dev

DHフェス2023が発表者・参加者募集中です

人文学+デジタルな取り組みを気楽に話すオンラインミーティング、DHフェス2023が発表者・参加者募集中です! sites.google.com かっちりした話でなくても、むしろ、研究のアイデアや相談事などの持ち込みを歓迎しているようです。 「デジタルでこういうこと…

書誌情報作成/図書館情報学/デジタル・ヒューマニティーズ/デジタルアーカイブに関心がある方々におすすめの講演会

2月の18日(土)と21日(火)、連続講演会「TEI (Text Encoding Initiative) × Library が拓くデジタル人文学と図書館の未来」が開催されます。 ケンブリッジ大学の、デジタル図書館の責任者であるHuw Jones氏と中東専門部門長のYasmin Faghihi氏をお招きし…

仏典のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました

SAT大蔵経データベース研究会で公開している仏典(勝鬘経義疏)のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました。例によって、Google Colab上で動かせるようにしております。 それから、見本ということで、変換後のHTML版は、とりあえ…

TEI利活用セミナーを開催します

明日(2022/11/5)の11:00-17:00、TEI利活用セミナーというのを開催します。 参加費無料・要申込み、です。参加申込みはこちらからお願いいたします。 TEIに準拠してファイルを作ったけど、これをどう扱えばいいのか…とか、 TEIに準拠して作られたファイルが…

TEI/XML利活用の基礎:PythonでTEI/XMLファイルの地理情報を地図上にプロットする

プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目さ…

くずし字OCR等の動向を踏まえて、研究者の方々に期待すること

いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRを…

人文学のためのテキストデータ構築入門を教科書として使う場合

『人文学のためのテキストデータ構築入門』は、表題の通り、人文学のためのテキストデータ構築全般についての入門書という位置づけの本ですので、教科書として使っていただくこともできます。ただし、色々な要素を含んでいますので、用途に応じて取捨選択し…

TEI準拠テキスト作成の入門セミナーを実施します

2022年10月10日、11:00~17:00(昼休みは12:30-13:20くらい)に、オンライン(Zoom)にて、TEI入門セミナーを実施します。 「人文学のためのテキストデータ構築入門」の第2部の第四章を中心に、TEIによるマークアップ手法について解説します。本で独習するこ…

シェイクスピア戯曲の文法的特徴を簡単に調べてみる

本日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポ…

人文学データにおけるジェンダーの記述手法がTEIガイドラインに導入されるようです

先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI (Text Encoding Initiative)というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、…

『人文学のためのテキストデータ構築入門』刊行記念TEI入門セミナーを開催します

すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。 今回は、『人文…

京大OCW閉鎖の件に寄せて:これからの可能性だったものの一つ

京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくな…

人文学のためのテキストデータ構築の国際デファクト標準、初の日本語による入門書

https://bungaku-report.com/blog/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のための…

NDL Ngram viewerの正規表現検索が面白い

正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、…

今時の簡単なXML論文ファイル作成提出方法/デジタル・ヒューマニティーズ国際会議での事例

論文の本文をXMLで記述しよう、という取り組みは、世界的にはかなり進んでいるようであり、日本でもJ-STAGEが「全文XML」ということで推進中です。 この7月に東京大学が開催予定の、国際デジタル・ヒューマニティーズ学会連合(ADHO)による国際学術大会 DH2…