2024年末版:人文学にデジタル技術を応用する研究に関する発表場所

昨日・一昨日に開催した国際シンポジウムで、人文学資料に人工知能技術を応用する研究をしているが発表する場がない(から知りたい)…とおっしゃっている人がいたので、改めてそういうことに関する情報をまとめておきます。 まず、分野名としては、国際的に…

簡単に簡素なデジタルアーカイブを構築するにあたってIIIF対応も簡単に

今回は、ここ2回続いた生成AIの話はちょっと横に置いておきまして、「簡単に簡素なデジタルアーカイブを構築するにあたってIIIF対応も簡単に」する方法です。それができるサンプルプログラムをしばらく前に作って紹介しましたので、それをご紹介する記事です…

生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2)

前回記事の続きです。生成 AI が、いつの間にか新しい局面を迎えているように思います。問い合わせをするための文字数制限(正確に言えばトークンの制限)が大幅に増え、問い合わせの際に、前提知識として学術論文数十本、あるいは新書10冊くらいを読み込ま…

生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1)

先週末、カリフォルニア大学バークレー校にて、ご招待をいただいて発表をしてきました。AIと仏教研究の未来、というテーマのイベントで、世界中から関連研究者が招待されて発表をしていました。要するに、世界のデジタル仏教研究者が集まって発表をする、と…

JADH2024の豪華な基調講演をご紹介(まだ参加申込みは間に合います!)

日本デジタル・ヒューマニティーズ学会 (JADH) の年次国際学術大会、JADH2024が、本年は9/18-20に東京大学本郷キャンパスで開催されます。JADHは、国際デジタル・ヒューマニティーズ学会連合 (ADHO) の構成組織として、国際的なデジタル・ヒューマニティーズ…

Apache Solrをローカルで使う時にCORSエラーを回避する方法

表題のとおりです。これができると、ローカルのHTMLファイルに書き込んだJavaScriptでApache Solrから検索して結果を表示できるようになります。 ある種の用途には非常に便利です。 やり方ですが、以下の頁を参照しています。 Going Cross-Origin with Solr …

How to Set Up DHconvalidator with Docker

This blog is usually written in Japanese, but I will write it in English because I think people who set up DHconvalidator can usually at least read English tutorials. DHconvalidator is a very cool tool that, in conjunction with Conftool (h…

歌合絵巻テキスト構造化&IIIF画像連携の成果が公開されました

この数年、お手伝いをしていたお仕事の一つに、『十番虫合絵巻』(ホノルル美術館所蔵)のデジタル化、という仕事がありました。 このコンテンツについてはまったくの素人で、正確な説明はこちらのページをご覧いただきたいのですが、簡単に述べますと、 時…

ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳

3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておら…

それでも高度なデジタルアーカイブを提供したい時は:「一次公開」「二次公開」とIIIF

以下の、前回記事の続きです。 digitalnagasaki.hatenablog.com こちらの記事では、新しいことや難しいことをすると大変だ、という話ばかり書きましたので、がっかりした人もおられるかもしれません。 たしかに、良コンテンツを持っているところでなければ高…

「デジタルアーカイブ」構築のロジと専門知識

いわゆる「デジタルアーカイブ」があちこちで構築されるようになってずいぶん経ちます。ジャパンサーチが登場したことで、とりあえず構築した後にメタデータを提供すれば、利用者に発見してもらえる可能性も高まってきました。これからますますデジタルアー…

ABBY FineReader 15で複数PDFにまとめてOCRをかけるには

ABBY FineReader 15で複数PDFにまとめてOCRをかける方法です。「一つずつファイルを開いてOCRをかける」手間を省くことができます。超快適です。 なお、ABBY FineReader は最新版ではありません。最新版を持っていないので、最新版でこれができるかどうかは…

『般若心経』の敦煌写本@フランス国立図書館を大正新脩大蔵経と比較できるツール

このところ、少しずつ時間をみつけて改良を続けている、「大正新脩大蔵経と他の木版・写本を簡単に比較できる仕組み」ですが、表示を高速化できるように色々工夫を行いまして、割とお待たせせずに表示できるようになりつつあります。 それから、「木版大蔵経…

NDL古典籍OCRによって漢文仏典研究環境が飛躍的に便利に:

表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。 やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行…

デジタルアーカイブのためのプログラミングレッスン:第7回を追加しました。

デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館のNDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここま…

デジタルデータの長期保存:iPRES2022 基調講演の日本語訳が公開されました

デジタルデータはなくなってしまいやすい…という話を時々耳にします。実のところ、紙媒体と同じくらいの手間をかけてよいのであればデジタルデータの持続可能性は十分に高いと思うのですが、そうだとしても、よりよくきちんと長期保存するためには何らかのル…

AIの助けを借りて蔵書印を解読/蔵書印ツールコレクションの公開

このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクショ…

デジタルアーカイブのためのプログラミングレッスン第一回~第六回

デジタルアーカイブのためのプログラミングレッスン、第六回まで作成しました。ですので、改めて第一回から並べておきます。 NDLサーチのAPIを用いて、IIIF Manifestを操作してサムネイル画像を作成する、というところまでに必要な機能をプログラミング言語P…

デジタルアーカイブのためのプログラミングレッスン第五回

前回のブログ記事の続きです。今度は1回分しかなくて恐縮ですが、自作関数の作成について扱っています。第一回からみていかないとわけがわからないものですが、第一回からやっていくと、課題に必要な要素は一通り組込まれています。ぜひ、第一回から挑戦して…

デジタルアーカイブのためのプログラミングレッスン第一回~第四回

デジタルアーカイブのためのプログラミングレッスン、というのを少し作成してみています。今のところ、第一回~第四回ができております。 デジタルアーカイブに興味を持ったり、関わったりしているものの、内容面だけでなく技術面からも本格的に取り組もうと…

TEI用ビューワでローカルPC上の画像を表示するには(画像ビューワ組込み編)

「TEI用ビューワでローカルPC上の画像を表示するには」 の続編、今度は画像ビューワ組込み編です。この辺からちょっとややこしくなってきます。 まず、画像ビューワとして OpenSeadragon を組込みます。そのためには… なんでもいいのでサンプル画像を用意し…

TEI用ビューワでローカルPC上の画像を表示するには(準備編)

TEI用ビューワにローカルPC上の画像を読み込んで拡大縮小させつつ領域を画像上に表示したい、というニーズが最近増えてきました。IIIFなら簡単なのですが、ローカルPCだと微妙に難しいところがあります。Webブラウザのセキュリティが色々細かくなってきてい…

某データベース作成のログ

npm init vue@3 xxxdb cd xxxdb/ npm install npm install vuetify npm run dev

DHフェス2023が発表者・参加者募集中です

人文学+デジタルな取り組みを気楽に話すオンラインミーティング、DHフェス2023が発表者・参加者募集中です! sites.google.com かっちりした話でなくても、むしろ、研究のアイデアや相談事などの持ち込みを歓迎しているようです。 「デジタルでこういうこと…

書誌情報作成/図書館情報学/デジタル・ヒューマニティーズ/デジタルアーカイブに関心がある方々におすすめの講演会

2月の18日(土)と21日(火)、連続講演会「TEI (Text Encoding Initiative) × Library が拓くデジタル人文学と図書館の未来」が開催されます。 ケンブリッジ大学の、デジタル図書館の責任者であるHuw Jones氏と中東専門部門長のYasmin Faghihi氏をお招きし…

仏典のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました

SAT大蔵経データベース研究会で公開している仏典(勝鬘経義疏)のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました。例によって、Google Colab上で動かせるようにしております。 それから、見本ということで、変換後のHTML版は、とりあえ…

TEI利活用セミナーを開催します

明日(2022/11/5)の11:00-17:00、TEI利活用セミナーというのを開催します。 参加費無料・要申込み、です。参加申込みはこちらからお願いいたします。 TEIに準拠してファイルを作ったけど、これをどう扱えばいいのか…とか、 TEIに準拠して作られたファイルが…

TEI/XML利活用の基礎:PythonでTEI/XMLファイルの地理情報を地図上にプロットする

プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目さ…

くずし字OCR等の動向を踏まえて、研究者の方々に期待すること

いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRを…

人文学のためのテキストデータ構築入門を教科書として使う場合

『人文学のためのテキストデータ構築入門』は、表題の通り、人文学のためのテキストデータ構築全般についての入門書という位置づけの本ですので、教科書として使っていただくこともできます。ただし、色々な要素を含んでいますので、用途に応じて取捨選択し…