デジタルアーカイブにおけるテクスト資料の扱い: 図書館向けのTEI活用法

TEI

前回記事に続けてもう一つ、デジタルアーカイブにおけるテクスト資料の扱いについての記事です。 ここまで、このブログでTEIに関する話を読んできていただくと、「そんなに細かいタグを付けるのは大変だ」と思ってしまわれる人も結構おられるのではないかと…

デジタルアーカイブにおけるテクスト資料:TEIでの電子版と元資料の書誌情報

TEI

やや間が空いてしまいましたが、先日より何度かご紹介しているTEI (Text Encoding Initiative)に関するご紹介の続きです。 先週、カナダのモントリオールにて開催されたDigital Humaities 2017というカンファレンスで、TEIコミュニティが賞をもらいました。…

Mirador最新版に右⇒左ページ閲覧機能を追加しました

Miradorの2017年6月版に右⇒左のページ閲覧機能を追加しました。要するに、日本や中国等の縦書き資料を、読む方向に(右から左)にあわせてページを閲覧できるようにする機能です。Miradorはこれができないのが東アジア文化圏にとってはちょっと残念なところ…

青空文庫の『走れメロス』をTEIで

TEI

前回・前々回に引き続き、TEIの話です。前回、ごく基本的なマークアップでもOKだということを少し書きましたが、それでは試しに、ということで、青空文庫の『走れメロス』をTEIにて書いてみました。それがこちらになります。 特に説明するようなことはあまり…

TEIへの取り組み方

TEI

TEIに取り組むには、一人で取り組むか、プロジェクトとして複数人で取り組むか、という二つのやり方があります。一人で取り組む場合には、とにかく自分で頑張ってみればいいのですが、プロジェクトとして複数人で取り組む場合には、まず、役割分担をする必要…

「デジタルアーカイブ」で全文テキストデータをうまく継承していくには

TEI

デジタルアーカイブ学会が設立されて第一回の学術大会が開催され、ジャパンサーチ(仮称)がその姿をみせつつあるなど、デジタルアーカイブが再び脚光を浴びつつあります。しかしながら、我が国ではデジタルアーカイブは以前にもブームになったことがありま…

二つの百鬼夜行絵巻をIIIF - Miradorで並べてみてみましょう。

前回と前々回の記事の続きです。 百鬼夜行絵巻のつながり方についての議論を少し前に山田奨治先生からおうかがいしたこともあり、国デコ(国立国会図書館デジタルコレクション)に百鬼夜行絵巻が二つ入っていることは以前から気になっていました。これも並べ…

Miradorの新機能で国デコの絵巻画像をつなげる(Gimpで位置合わせ編)

今回の記事は、前回の続編ということで、国デコ(国立国会図書館デジタルコレクション)の絵巻画像をサーバ上では分割されたままで配信しつつ、IIIF対応ビューワMirador上でつなげて閲覧するための位置情報の取得を比較的効率的に行うための作業手順について…

Miradorの新機能で国デコの絵巻画像をつなげる(Manifestの書き方編)

何度かご紹介してきた、Miradorに新規搭載されたLayer機能ですが、これを応用すると、複数に分割された画像をまとめて表示する、ということもできるようになります。ここでは具体例として、カルガリー大学の楊先生のリクエストにより、国立国会図書館デジタ…

公開されているIIIFコンテンツを収集・共同編集するツールがリリースされました

メールマガジン人文情報学月報のイベントレポートで何度か触れてきましたが、トロント大学図書館の「写本研究のためのデジタルツール」プロジェクトで開発されていた、「既存のIIIFコンテンツを収集・共同編集するツール」が、ついに公式リリースされました…

赤外線写真とX線写真を重ね合わせてみる:IIIFの活用例

前回記事の続きのようなものですが、しかし、これも大きなトピックかもしれないと思いましたので、記事を分割しました。 一つの画像に、赤外線写真とX線写真を重ね合わせてみる、というものも、汎用ビューワでできるようになったようです。まずはこちらをご…

バラバラになった各地の西洋中世写本断片をまとめて表示:IIIFの活用例

また少し時間がたってしまいましたが、今回は、6月にヴァチカンで開催されたIIIFカンファレンスで仕入れてきた話を一つご紹介します。IIIFが当初目標としていた、「バラバラになって各地の機関に保存されている西洋写本の断片をまとめて表示する」という機能…

写本や貴重書等の書誌情報の書き方について(TEI/XMLのご紹介)

TEI

最近、メタデータの書き方について相談を受けることが多いので、今回は、写本や貴重書的な資料の書誌情報の書き方に関して、ちょっと事例を紹介させていただきます。 テクスト資料のデジタル化に関しては、いわゆるISOのような規格ほどかっちりとしたもので…

IIIF画像配信の高速化のために(HTTP2の可能性と課題)

HTTPSに関して説明する必要はもうあまりないと思います。Webで暗号化通信とサイトの身元保証をしてくれる仕組みですね。これまで、HTTPSは、主に送信されるデータに比較的高度なセキュリティが必要な状況、たとえばパスワードを送信する時などに主に使われて…

IIIF対応ビューワMiradorの最新版に右⇒左ページめくり方向を実装してみました(5/8追記あり)

IIIF対応ビューワの代表格の一つ、Miradorですが、アノテーション機能と複数画像同時表示機能という大変便利な機能を提供してくれている一方で、右から左へのページめくりに対応していないため、東アジア系の資料に適用することがなかなか難しい状況でした。…

デジタルアーカイブ学会設立総会に向けて期待すること

さて、本日は夕方からデジタルアーカイブ学会設立総会に参加する予定です。すでにWebサイトには「デジタルアーカイブ学会設立趣意書」が公開されていますので、目指す方向はここで提示されているものと思われます。 これを拝見してまず思ったことは、学会に…

国文学研究資料館の古典籍等のデータベース群(の一部?)にパーマリンク的なものがついた模様

いつアナウンスされたのかよくわからないのですが、国文学研究資料館の古典籍のデータベースに「書誌URL」というものがつきました。これはいわゆるパーマリンクに近いものなのではないかと想像しています。たとえば、下記の引用画像の赤線部をご覧ください。…

国立公文書館で紹介された「最新のIT技術を活用したデジタルアーカイブ・システムの調査検討報告書」について気がついたこと

ところで、先日、国立公文書館から、 最新のIT技術を活用したデジタルアーカイブ・システムの調査検討報告書(平成29年1月)(PDF) というものが公開されたようで、「調査・報告書等」のページから閲覧できるようになっています。前の記事にてご紹介したブロ…

IIIF manifestファイルの書き方を神崎正英さんが解説しておられます

また更新の時間が空いてしまいましたが、今回はIIIF maniefstファイルの書き方について、Web標準の世界で有名なあの神崎正英さんがインフォコムのブログにて解説記事を書いてくださっています。 特に、まだ私が取り組んでいないrange等の書き方についても解…

東京国立博物館の一部デジタルコンテンツがCC BY-NC的な感じに!

昨日知ったのですが、東京国立博物館のhttp://webarchives.tnm.jp/ 配下で公開しているデジタルコンテンツの利用許諾条件(ライセンス)が変更され、以下のようになったそうです。 当館で公開しているデジタルコンテンツ(画像、テキスト等)のうち、 著作権の…

絵文字の肌色も扱える「異体字セレクタセレクタ」

前回のブログ記事でご紹介した、王一凡さんによる「異体字セレクタセレクタ」ですが、一部で、絵文字も扱えると話題になっているようです。絵文字と言えば、Unicode Consortiumでもemojiと呼ばれているほどに、日本発のような感じになっております。文字表は…

Unicodeの異体字操作に便利なツール「異体字セレクタセレクタ」

今回は、Unicodeで異体字を扱う際の便利ツール、「異体字セレクタセレクタ」のご紹介です。 みなさま、パソコンやスマホ・携帯などで文字入力をする時、最近は特に文字がUnicodeかどうかなど、気にすることもなくなってきていることが多いのではないかと思い…

『絵入り源氏物語』の分析サイトが公開されたようです:人文系オープンデータの活用事例

昨年11月、「国文研データセット」として、350点のデジタル化古典籍が公開されましたが、このたびは、それに続いて350点が新たに公開され、総計700点となりました。しかも、今回の公開は人文学オープンデータ共同利用センター準備室というまったく新しい組織…

Mirador2.1を手元で活用(その1)

IIIF対応ビューワ、Mirador2.1は、Javascriptで書かれていて、最近のWebブラウザさえあれば大体動きます。もちろん、ネット上の画像にアクセスしますので、パソコンがネットワーク接続されていないとどうにもならないのですが、つながっていれば、手元のMira…

国文研館蔵和古書画像400万コマ近くがオープンデータに!

先日、国文学研究資料館(以下、国文研)の館蔵和古書画像がCC BY-SAへとライセンス変更されたことは記憶に新しいところです。筆者としては早速ダウンロードして色々活用できるように…と思って少し試してみたらなかなか大変でした。結果として、19451書誌分…

IIIFのための画像サーバ導入記(JPEGのままで/Tomcat編)

IIIF Image API対応画像サーバ Digilib のインストールについてのご紹介 以前に、IIIFのための画像サーバを導入するための方法として、IIP Image serverをご紹介(簡易版)しました。多分これが最速なのではないかと思うのでとりあえずご紹介したのですが、…

Mirador 2.1 (IIIF対応ビューワ)リリース&日本の古典籍が登載!

IIIF(International Image Interoperability Framework)対応の高機能画像ビューワの代表格の一つであるMiradorのバージョン2.1が、ついに、ようやく、リリースされました。(ダウンロードはこちらが簡単です。このビューワはローカルパソコンにダウンロー…

国デコ(国立国会図書館デジタルコレクション)の使用感を今更ながら…

国デコ(国立国会図書館デジタルコレクション)を常日頃大変活用させていただいており、国立国会図書館の中の人達が色々努力と工夫を重ねてきておられるということはよく認識しております。その上での話なのですが、ここしばらく、国デコをかたっぱしから見…

Crowd4u+翻デジ+IIIF⇒国デコImage Wall お試し版~NDLのデジタルコレクションを図像から見ていくサイトです

このたび、筑波大学の森嶋研究室によるCrowd4uプロジェクトと日本デジタル・ヒューマニティーズ学会による翻デジプロジェクトが連携して、 国デコ Image Wall お試し版 (あるいは、国デコ・ウォール) http://lab.ndl.go.jp/dhii/kunidecoview/ というもの…

簡易テクスト分析にVoyant-Toolsもいかがでしょうか?

先日ようやく、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点が開設する人文情報学概論(いわゆるデジタル・ヒューマニティーズ)の授業を履修した大学院生達によるVoyant-Tools日本語インターフェイスβ版が公開されました。そん…

「デジタルアーカイブ」を考える―「日本」がそのアイデンティティを取り戻すために

「デジタルアーカイブ」に関わる技術について、このブログでは主に扱ってきている。基本的に目指しているのは、そういう情報をきちんと共有して、「車輪の再発明」を避けつつ、無駄な投資も避けて、「デジタルアーカイブ」が適切な歩みを進めていくことに少…

「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました

このところ、IIIFの紹介に時間をかけてきましたが、今回は、もう一段深く資料を扱うための規格についてのご紹介です。 先にポイントだけ書いておきますと、まさにタイトルの通りです。もう少しかみ砕いて申しますと、人文学資料の中でも、特にテクスト資料に…

「デジタルアーカイブ」における日本語古典籍+翻刻とIIIF、そして皆様の取組み

このところご紹介を続けている「デジタルアーカイブ」の画像共有のための国際規格、IIIFですが、今回は、日本語古典籍の扱いについての近況と、みなさまの取組みについて、知る範囲で少しご紹介させていただきます。 IIIFではあれができる、これができる、と…

仏教図像DBで学ぶ「デジタルアーカイブ」の国際規格IIIF

前回の記事に書いたように、すでにフランス国立図書館のgallicaやDPLAをはじめ、様々な大手「デジタルアーカイブ」公開機関で採用され、国際的に採用が大きく広がりつつある、国際的な画像共有のための枠組みIIIF(International Image Interoperability Fra…

「デジタルアーカイブ」における画像共有のための国際規格IIIFについてのご紹介(続)

IIIF International Image Interoperability Framework 国際的な画像相互運用の枠組み 断片的な紹介ばかりで恐縮だが、IIIFのメリットが見えにくい、先の見通しが見えにくい、という話をいただくことが多いので、もう少しわかりやすくなるようにまとめ直して…

仏教関連の図像データベースがIIIF対応で公開されました。

SAT大蔵経テキストデータベース研究会(代表:下田正弘東京大学教授)より、大正新脩大藏經図像データベース:SAT大正蔵図像DB(ベータ版)がIIIF(International Image Interoperability Framework)対応かつタグ検索機能付きで公開されました。 今回データ…

今まさに広まりつつあるデジタルアーカイブの国際規格IIIFの導入の仕方

前回の記事では、IIIFについて、主にユーザ側の視点から、良くなりそうなことを簡単にご説明しました。今回は、IIIFの導入の仕方についてちょっとご紹介したいと思います。 一昨日開催された人文科学とコンピュータ研究会で、10分だけ、IIIFをご紹介する機会…

今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介

現在、デジタルアーカイブにおいて画像を公開し共有するための国際的な枠組みが作られ、採用が広まりつつあります。International Image Interoperability Framework、略してIIIF(トリプルアイエフ)というもので、英国図書館、フランス国立図書館、オック…

IIIF対応URLで古典籍から画像や文字を切り出せるように!(日本の古典籍のオープンデータ!その4)

今回はまず、冗漫な話は後回しにして、先に要件から行きます。 ここしばらく時々記載している国文研オープンデータセットの活用例シリーズ、「日本の古典籍のオープンデータ!そのn」ですが、IIIF対応画像切り出し用URL、というのを簡単に作れる様にしてみま…

IIIFを使ってみたい人のためのIIPImage Serverインストール記(簡易版)

本日、「国際的なデジタル画像の相互運用の枠組み、IIIFのためのサーバを導入してみたので簡単にご紹介」という大変冗長な記事を書いたのですが、雑談や脱線が多すぎて、インストールが難しいのではという印象を一部に持たれてしまったかもしれないと思いま…

国際的なデジタル画像の相互運用の枠組み、IIIFのためのサーバを導入してみたので簡単にご紹介

さて、最近は国際的なデジタル画像の相互運用の枠組み、IIIFというプロトコルのようなものが世界のデジタル画像データベース界(?)を席巻しております。以前にも少しご紹介しましたが、「スコットランド国立図書館、IIIFコンソーシアムに加盟 | カレントア…

本日、 第4回 SPARC Japan セミナー2015 「研究振興の文脈における大学図書館の機能」に参加する予定なのですが…

本日、 第4回 SPARC Japan セミナー2015 「研究振興の文脈における大学図書館の機能」に参加する予定なのですが、もう本当に仕事が立て込んでいて、行けるかどうか定かでないので、とりあえず質疑応答の時間があったら聞いておきたいことを先に書いておくこ…

D3.jsとIIIF。まだ相互連携してませんが(日本の古典籍のオープンデータ!その3)

日本の古典籍のオープンデータのお話、ずいぶん間が空いてしまいましたが、その間、何もしてなかったわけではありません。ちまちまと開発を続けておりまして、しかしご報告を書く時間がなかなかとれないという状況でした。 今も、他にも色々しなければならな…

ワークショップ (デジタル/アナログ・ヒューマニティーズ)によせて:パブリックドメイン資料の活用と大学図書館連合への参画について

【イベント】デジタル・ヒューマニティーズ関連ワークショップ(東京・2/10、2/12) | カレントアウェアネス・ポータル の告知があった。残念ながら、すでに2/10は京都で講習会の講師を頼まれていて、ほぼ時間もかぶっているので、全然参加できないという状…

北米大学図書館の日本研究司書の人たちの危機感を実感した話

今、いくつか原稿を抱えていて、本当ならこれを書いている場合ではないのだが、しかし、この感触を忘れないうちに記しておきたい。 北米大学図書館の日本研究司書の人たちの危機感を実感した という話。 特に、ミシガン大学日本研究司書の横田カーター啓子さ…

SAT大蔵経DBで仏典を読みながらJapan Knowledgeの仏教語大辞典を簡単に引けるようになりました

今回は、SAT大蔵経データベースとJapan Knowledgeが連携して便利になった、という話です。前置きが長いので、前置きを飛ばしてとりあえずどうなったか知りたい人は、下の方にある「ここから具体的な解説です」というところから見てください。2008年から、SAT…

日本の古典籍のオープンデータ! その2

前回の続きである。あれもこれもしながら合間にちょこちょこっとやっているので、なんとも微妙なシステムを公開してしまっていて大変恐縮なのだが、今夜は、示した頁に付与されたタグを表示する時に、同じタグを付与されている別な本/頁へのリンクをリスト…

日本の古典籍のオープンデータ! その1

日本の古典籍の本格的なオープンデータが公開されたのは今月の上旬。今回の場合、何が本格的かと言えば、その画像の圧倒的な容量である。下記のサイトをご覧いただけば一目瞭然だが、26GBだの30GBだのといったファイルがHTTPでダウンロードできるようになっ…

JATS-Con Asiaに参加できなくて残念です:JATS/XMLとJ-Stageについての質問

JATS-Con Asia ミーティングという、ユーザ目線で大変興味のあるイベントが、しかも都内で開催されるというのに、別な国際会議が松江で開催されるというので泣く泣く参加を断念した。今は松江にいる。泣きそうになるほど残念だった理由は、J-Stageに論文を登…

人文学に役立ちそうなプログラミングの勉強会(中級編)

ここしばらく、TEI/XMLの勉強会を全国各地で開催してきましたが、そろそろ次の一歩に進んでみようかと思います。題して「人文学に役立ちそうなプログラミングの勉強会」です。といっても、「次の一歩」というほど今までの勉強会を踏まえたものになるかどうか…