3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておら…
以下の、前回記事の続きです。 digitalnagasaki.hatenablog.com こちらの記事では、新しいことや難しいことをすると大変だ、という話ばかり書きましたので、がっかりした人もおられるかもしれません。 たしかに、良コンテンツを持っているところでなければ高…
いわゆる「デジタルアーカイブ」があちこちで構築されるようになってずいぶん経ちます。ジャパンサーチが登場したことで、とりあえず構築した後にメタデータを提供すれば、利用者に発見してもらえる可能性も高まってきました。これからますますデジタルアー…
ABBY FineReader 15で複数PDFにまとめてOCRをかける方法です。「一つずつファイルを開いてOCRをかける」手間を省くことができます。超快適です。 なお、ABBY FineReader は最新版ではありません。最新版を持っていないので、最新版でこれができるかどうかは…
このところ、少しずつ時間をみつけて改良を続けている、「大正新脩大蔵経と他の木版・写本を簡単に比較できる仕組み」ですが、表示を高速化できるように色々工夫を行いまして、割とお待たせせずに表示できるようになりつつあります。 それから、「木版大蔵経…
表題の通りのことを実現できましたので、とりあえずこちらにてご報告です。 やや説明が難しいのですが、何ができるように/便利になったのかというと、 「SAT大蔵経DBのテキストをクリックするだけでそれに対応する宮内庁宋版一切經の行や東京大学嘉興蔵の行…
デジタルアーカイブのためのプログラミングレッスン、ということで、国立国会図書館のNDLデジタルコレクションを対象として、主にIIIFのデータを扱うことを目指した基礎的なプログラミングレッスンの教材を作成中です。ようやく第7回を追加しました。ここま…
デジタルデータはなくなってしまいやすい…という話を時々耳にします。実のところ、紙媒体と同じくらいの手間をかけてよいのであればデジタルデータの持続可能性は十分に高いと思うのですが、そうだとしても、よりよくきちんと長期保存するためには何らかのル…
このたび、一般財団法人人文情報学研究所より、「蔵書印ツールコレクション」が公開されました。 https://seal.dhii.jp/ 構築の経緯など、詳しくは「蔵書印ツールコレクションについて https://seal.dhii.jp/about/」をご覧ください。 このツールコレクショ…
デジタルアーカイブのためのプログラミングレッスン、第六回まで作成しました。ですので、改めて第一回から並べておきます。 NDLサーチのAPIを用いて、IIIF Manifestを操作してサムネイル画像を作成する、というところまでに必要な機能をプログラミング言語P…
前回のブログ記事の続きです。今度は1回分しかなくて恐縮ですが、自作関数の作成について扱っています。第一回からみていかないとわけがわからないものですが、第一回からやっていくと、課題に必要な要素は一通り組込まれています。ぜひ、第一回から挑戦して…
デジタルアーカイブのためのプログラミングレッスン、というのを少し作成してみています。今のところ、第一回~第四回ができております。 デジタルアーカイブに興味を持ったり、関わったりしているものの、内容面だけでなく技術面からも本格的に取り組もうと…
「TEI用ビューワでローカルPC上の画像を表示するには」 の続編、今度は画像ビューワ組込み編です。この辺からちょっとややこしくなってきます。 まず、画像ビューワとして OpenSeadragon を組込みます。そのためには… なんでもいいのでサンプル画像を用意し…
TEI用ビューワにローカルPC上の画像を読み込んで拡大縮小させつつ領域を画像上に表示したい、というニーズが最近増えてきました。IIIFなら簡単なのですが、ローカルPCだと微妙に難しいところがあります。Webブラウザのセキュリティが色々細かくなってきてい…
npm init vue@3 xxxdb cd xxxdb/ npm install npm install vuetify npm run dev
人文学+デジタルな取り組みを気楽に話すオンラインミーティング、DHフェス2023が発表者・参加者募集中です! sites.google.com かっちりした話でなくても、むしろ、研究のアイデアや相談事などの持ち込みを歓迎しているようです。 「デジタルでこういうこと…
2月の18日(土)と21日(火)、連続講演会「TEI (Text Encoding Initiative) × Library が拓くデジタル人文学と図書館の未来」が開催されます。 ケンブリッジ大学の、デジタル図書館の責任者であるHuw Jones氏と中東専門部門長のYasmin Faghihi氏をお招きし…
SAT大蔵経データベース研究会で公開している仏典(勝鬘経義疏)のTEI/XMLデータをHTMLに変換して読みやすくするスクリプトを作りました。例によって、Google Colab上で動かせるようにしております。 それから、見本ということで、変換後のHTML版は、とりあえ…
明日(2022/11/5)の11:00-17:00、TEI利活用セミナーというのを開催します。 参加費無料・要申込み、です。参加申込みはこちらからお願いいたします。 TEIに準拠してファイルを作ったけど、これをどう扱えばいいのか…とか、 TEIに準拠して作られたファイルが…
プログラミング言語Pythonは、自然言語処理のライブラリが充実しているので、自分のメインの言語ではなかったのですが、10年くらい前に、授業で教えられるくらいの勉強をして、授業で教えたりしていました。その後、ディープラーニングへの入口として注目さ…
いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRを…
『人文学のためのテキストデータ構築入門』は、表題の通り、人文学のためのテキストデータ構築全般についての入門書という位置づけの本ですので、教科書として使っていただくこともできます。ただし、色々な要素を含んでいますので、用途に応じて取捨選択し…
2022年10月10日、11:00~17:00(昼休みは12:30-13:20くらい)に、オンライン(Zoom)にて、TEI入門セミナーを実施します。 「人文学のためのテキストデータ構築入門」の第2部の第四章を中心に、TEIによるマークアップ手法について解説します。本で独習するこ…
本日は、英語コーパス学会のワークショップで、「はじめてのXML」のお話をさせていただきました。コンセプトとしては、「とりあえずXMLはどういう風に良いものなのかを見ていただき、自分でやってみたい人はあとで録画をみていただく」ということで、パワポ…
先週は、イギリスのニューカッスル大学にてTEIカンファレンスが開催されていました。TEI (Text Encoding Initiative)というのは、人文学のためのテキストデータを構築するために1987年から策定され続けている国際的なデファクト標準のガイドラインであり、…
すでにあちこちで告知をしておりますが、『人文学のためのテキストデータ構築入門』 https://www.amazon.co.jp/dp/B0B81SHFBH/ 刊行を記念して、この本を踏まえたTEI入門セミナーを開催します。 このイベントは、参加費無料・要申込みです。 今回は、『人文…
京都大学高等教育研究開発推進センターが9月末に廃止されることに伴い、「京都大学オープンコースウェア(OCW)」が閉鎖されるというニュースに接した。実際のところ、これがその後どうなるのかはわからないが、現在知らされている範囲では、とにかくなくな…
https://bungaku-report.com/blog/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のための…
正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、…
論文の本文をXMLで記述しよう、という取り組みは、世界的にはかなり進んでいるようであり、日本でもJ-STAGEが「全文XML」ということで推進中です。 この7月に東京大学が開催予定の、国際デジタル・ヒューマニティーズ学会連合(ADHO)による国際学術大会 DH2…