写本や貴重書等の書誌情報の書き方について(TEI/XMLのご紹介)

TEI

最近、メタデータの書き方について相談を受けることが多いので、今回は、写本や貴重書的な資料の書誌情報の書き方に関して、ちょっと事例を紹介させていただきます。 テクスト資料のデジタル化に関しては、いわゆるISOのような規格ほどかっちりとしたもので…

IIIF画像配信の高速化のために(HTTP2の可能性と課題)

HTTPSに関して説明する必要はもうあまりないと思います。Webで暗号化通信とサイトの身元保証をしてくれる仕組みですね。これまで、HTTPSは、主に送信されるデータに比較的高度なセキュリティが必要な状況、たとえばパスワードを送信する時などに主に使われて…

IIIF対応ビューワMiradorの最新版に右⇒左ページめくり方向を実装してみました(5/8追記あり)

IIIF対応ビューワの代表格の一つ、Miradorですが、アノテーション機能と複数画像同時表示機能という大変便利な機能を提供してくれている一方で、右から左へのページめくりに対応していないため、東アジア系の資料に適用することがなかなか難しい状況でした。…

デジタルアーカイブ学会設立総会に向けて期待すること

さて、本日は夕方からデジタルアーカイブ学会設立総会に参加する予定です。すでにWebサイトには「デジタルアーカイブ学会設立趣意書」が公開されていますので、目指す方向はここで提示されているものと思われます。 これを拝見してまず思ったことは、学会に…

国文学研究資料館の古典籍等のデータベース群(の一部?)にパーマリンク的なものがついた模様

いつアナウンスされたのかよくわからないのですが、国文学研究資料館の古典籍のデータベースに「書誌URL」というものがつきました。これはいわゆるパーマリンクに近いものなのではないかと想像しています。たとえば、下記の引用画像の赤線部をご覧ください。…

国立公文書館で紹介された「最新のIT技術を活用したデジタルアーカイブ・システムの調査検討報告書」について気がついたこと

ところで、先日、国立公文書館から、 最新のIT技術を活用したデジタルアーカイブ・システムの調査検討報告書(平成29年1月)(PDF) というものが公開されたようで、「調査・報告書等」のページから閲覧できるようになっています。前の記事にてご紹介したブロ…

IIIF manifestファイルの書き方を神崎正英さんが解説しておられます

また更新の時間が空いてしまいましたが、今回はIIIF maniefstファイルの書き方について、Web標準の世界で有名なあの神崎正英さんがインフォコムのブログにて解説記事を書いてくださっています。 特に、まだ私が取り組んでいないrange等の書き方についても解…

東京国立博物館の一部デジタルコンテンツがCC BY-NC的な感じに!

昨日知ったのですが、東京国立博物館のhttp://webarchives.tnm.jp/ 配下で公開しているデジタルコンテンツの利用許諾条件(ライセンス)が変更され、以下のようになったそうです。 当館で公開しているデジタルコンテンツ(画像、テキスト等)のうち、 著作権の…

絵文字の肌色も扱える「異体字セレクタセレクタ」

前回のブログ記事でご紹介した、王一凡さんによる「異体字セレクタセレクタ」ですが、一部で、絵文字も扱えると話題になっているようです。絵文字と言えば、Unicode Consortiumでもemojiと呼ばれているほどに、日本発のような感じになっております。文字表は…

Unicodeの異体字操作に便利なツール「異体字セレクタセレクタ」

今回は、Unicodeで異体字を扱う際の便利ツール、「異体字セレクタセレクタ」のご紹介です。 みなさま、パソコンやスマホ・携帯などで文字入力をする時、最近は特に文字がUnicodeかどうかなど、気にすることもなくなってきていることが多いのではないかと思い…

『絵入り源氏物語』の分析サイトが公開されたようです:人文系オープンデータの活用事例

昨年11月、「国文研データセット」として、350点のデジタル化古典籍が公開されましたが、このたびは、それに続いて350点が新たに公開され、総計700点となりました。しかも、今回の公開は人文学オープンデータ共同利用センター準備室というまったく新しい組織…

Mirador2.1を手元で活用(その1)

IIIF対応ビューワ、Mirador2.1は、Javascriptで書かれていて、最近のWebブラウザさえあれば大体動きます。もちろん、ネット上の画像にアクセスしますので、パソコンがネットワーク接続されていないとどうにもならないのですが、つながっていれば、手元のMira…

国文研館蔵和古書画像400万コマ近くがオープンデータに!

先日、国文学研究資料館(以下、国文研)の館蔵和古書画像がCC BY-SAへとライセンス変更されたことは記憶に新しいところです。筆者としては早速ダウンロードして色々活用できるように…と思って少し試してみたらなかなか大変でした。結果として、19451書誌分…

IIIFのための画像サーバ導入記(JPEGのままで/Tomcat編)

IIIF Image API対応画像サーバ Digilib のインストールについてのご紹介 以前に、IIIFのための画像サーバを導入するための方法として、IIP Image serverをご紹介(簡易版)しました。多分これが最速なのではないかと思うのでとりあえずご紹介したのですが、…

Mirador 2.1 (IIIF対応ビューワ)リリース&日本の古典籍が登載!

IIIF(International Image Interoperability Framework)対応の高機能画像ビューワの代表格の一つであるMiradorのバージョン2.1が、ついに、ようやく、リリースされました。(ダウンロードはこちらが簡単です。このビューワはローカルパソコンにダウンロー…

国デコ(国立国会図書館デジタルコレクション)の使用感を今更ながら…

国デコ(国立国会図書館デジタルコレクション)を常日頃大変活用させていただいており、国立国会図書館の中の人達が色々努力と工夫を重ねてきておられるということはよく認識しております。その上での話なのですが、ここしばらく、国デコをかたっぱしから見…

Crowd4u+翻デジ+IIIF⇒国デコImage Wall お試し版~NDLのデジタルコレクションを図像から見ていくサイトです

このたび、筑波大学の森嶋研究室によるCrowd4uプロジェクトと日本デジタル・ヒューマニティーズ学会による翻デジプロジェクトが連携して、 国デコ Image Wall お試し版 (あるいは、国デコ・ウォール) http://lab.ndl.go.jp/dhii/kunidecoview/ というもの…

簡易テクスト分析にVoyant-Toolsもいかがでしょうか?

先日ようやく、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点が開設する人文情報学概論(いわゆるデジタル・ヒューマニティーズ)の授業を履修した大学院生達によるVoyant-Tools日本語インターフェイスβ版が公開されました。そん…

「デジタルアーカイブ」を考える―「日本」がそのアイデンティティを取り戻すために

「デジタルアーカイブ」に関わる技術について、このブログでは主に扱ってきている。基本的に目指しているのは、そういう情報をきちんと共有して、「車輪の再発明」を避けつつ、無駄な投資も避けて、「デジタルアーカイブ」が適切な歩みを進めていくことに少…

「デジタルアーカイブ」におけるテクスト資料の構造化・マークアップの国際デファクト標準、TEIガイドラインを作っているTEI協会に日本語資料を扱う分科会ができました

このところ、IIIFの紹介に時間をかけてきましたが、今回は、もう一段深く資料を扱うための規格についてのご紹介です。 先にポイントだけ書いておきますと、まさにタイトルの通りです。もう少しかみ砕いて申しますと、人文学資料の中でも、特にテクスト資料に…

「デジタルアーカイブ」における日本語古典籍+翻刻とIIIF、そして皆様の取組み

このところご紹介を続けている「デジタルアーカイブ」の画像共有のための国際規格、IIIFですが、今回は、日本語古典籍の扱いについての近況と、みなさまの取組みについて、知る範囲で少しご紹介させていただきます。 IIIFではあれができる、これができる、と…

仏教図像DBで学ぶ「デジタルアーカイブ」の国際規格IIIF

前回の記事に書いたように、すでにフランス国立図書館のgallicaやDPLAをはじめ、様々な大手「デジタルアーカイブ」公開機関で採用され、国際的に採用が大きく広がりつつある、国際的な画像共有のための枠組みIIIF(International Image Interoperability Fra…

「デジタルアーカイブ」における画像共有のための国際規格IIIFについてのご紹介(続)

IIIF International Image Interoperability Framework 国際的な画像相互運用の枠組み 断片的な紹介ばかりで恐縮だが、IIIFのメリットが見えにくい、先の見通しが見えにくい、という話をいただくことが多いので、もう少しわかりやすくなるようにまとめ直して…

仏教関連の図像データベースがIIIF対応で公開されました。

SAT大蔵経テキストデータベース研究会(代表:下田正弘東京大学教授)より、大正新脩大藏經図像データベース:SAT大正蔵図像DB(ベータ版)がIIIF(International Image Interoperability Framework)対応かつタグ検索機能付きで公開されました。 今回データ…

今まさに広まりつつあるデジタルアーカイブの国際規格IIIFの導入の仕方

前回の記事では、IIIFについて、主にユーザ側の視点から、良くなりそうなことを簡単にご説明しました。今回は、IIIFの導入の仕方についてちょっとご紹介したいと思います。 一昨日開催された人文科学とコンピュータ研究会で、10分だけ、IIIFをご紹介する機会…

今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介

現在、デジタルアーカイブにおいて画像を公開し共有するための国際的な枠組みが作られ、採用が広まりつつあります。International Image Interoperability Framework、略してIIIF(トリプルアイエフ)というもので、英国図書館、フランス国立図書館、オック…

IIIF対応URLで古典籍から画像や文字を切り出せるように!(日本の古典籍のオープンデータ!その4)

今回はまず、冗漫な話は後回しにして、先に要件から行きます。 ここしばらく時々記載している国文研オープンデータセットの活用例シリーズ、「日本の古典籍のオープンデータ!そのn」ですが、IIIF対応画像切り出し用URL、というのを簡単に作れる様にしてみま…

IIIFを使ってみたい人のためのIIPImage Serverインストール記(簡易版)

本日、「国際的なデジタル画像の相互運用の枠組み、IIIFのためのサーバを導入してみたので簡単にご紹介」という大変冗長な記事を書いたのですが、雑談や脱線が多すぎて、インストールが難しいのではという印象を一部に持たれてしまったかもしれないと思いま…

国際的なデジタル画像の相互運用の枠組み、IIIFのためのサーバを導入してみたので簡単にご紹介

さて、最近は国際的なデジタル画像の相互運用の枠組み、IIIFというプロトコルのようなものが世界のデジタル画像データベース界(?)を席巻しております。以前にも少しご紹介しましたが、「スコットランド国立図書館、IIIFコンソーシアムに加盟 | カレントア…

本日、 第4回 SPARC Japan セミナー2015 「研究振興の文脈における大学図書館の機能」に参加する予定なのですが…

本日、 第4回 SPARC Japan セミナー2015 「研究振興の文脈における大学図書館の機能」に参加する予定なのですが、もう本当に仕事が立て込んでいて、行けるかどうか定かでないので、とりあえず質疑応答の時間があったら聞いておきたいことを先に書いておくこ…

D3.jsとIIIF。まだ相互連携してませんが(日本の古典籍のオープンデータ!その3)

日本の古典籍のオープンデータのお話、ずいぶん間が空いてしまいましたが、その間、何もしてなかったわけではありません。ちまちまと開発を続けておりまして、しかしご報告を書く時間がなかなかとれないという状況でした。 今も、他にも色々しなければならな…

ワークショップ (デジタル/アナログ・ヒューマニティーズ)によせて:パブリックドメイン資料の活用と大学図書館連合への参画について

【イベント】デジタル・ヒューマニティーズ関連ワークショップ(東京・2/10、2/12) | カレントアウェアネス・ポータル の告知があった。残念ながら、すでに2/10は京都で講習会の講師を頼まれていて、ほぼ時間もかぶっているので、全然参加できないという状…

北米大学図書館の日本研究司書の人たちの危機感を実感した話

今、いくつか原稿を抱えていて、本当ならこれを書いている場合ではないのだが、しかし、この感触を忘れないうちに記しておきたい。 北米大学図書館の日本研究司書の人たちの危機感を実感した という話。 特に、ミシガン大学日本研究司書の横田カーター啓子さ…

SAT大蔵経DBで仏典を読みながらJapan Knowledgeの仏教語大辞典を簡単に引けるようになりました

今回は、SAT大蔵経データベースとJapan Knowledgeが連携して便利になった、という話です。前置きが長いので、前置きを飛ばしてとりあえずどうなったか知りたい人は、下の方にある「ここから具体的な解説です」というところから見てください。2008年から、SAT…

日本の古典籍のオープンデータ! その2

前回の続きである。あれもこれもしながら合間にちょこちょこっとやっているので、なんとも微妙なシステムを公開してしまっていて大変恐縮なのだが、今夜は、示した頁に付与されたタグを表示する時に、同じタグを付与されている別な本/頁へのリンクをリスト…

日本の古典籍のオープンデータ! その1

日本の古典籍の本格的なオープンデータが公開されたのは今月の上旬。今回の場合、何が本格的かと言えば、その画像の圧倒的な容量である。下記のサイトをご覧いただけば一目瞭然だが、26GBだの30GBだのといったファイルがHTTPでダウンロードできるようになっ…

JATS-Con Asiaに参加できなくて残念です:JATS/XMLとJ-Stageについての質問

JATS-Con Asia ミーティングという、ユーザ目線で大変興味のあるイベントが、しかも都内で開催されるというのに、別な国際会議が松江で開催されるというので泣く泣く参加を断念した。今は松江にいる。泣きそうになるほど残念だった理由は、J-Stageに論文を登…

人文学に役立ちそうなプログラミングの勉強会(中級編)

ここしばらく、TEI/XMLの勉強会を全国各地で開催してきましたが、そろそろ次の一歩に進んでみようかと思います。題して「人文学に役立ちそうなプログラミングの勉強会」です。といっても、「次の一歩」というほど今までの勉強会を踏まえたものになるかどうか…

セキュリティがかかってなくてテキストが埋め込まれているPDF群からテキストを一括して抜き出す

セキュリティがかかってなくてテキストが埋め込まれているPDF群からテキストを一括して抜き出す(Windows - Cygwin編)はじめにWindows - Cygwin編、としているのは、単に、OSとしてUnix系をなんとかするという大仕事をせずに、Windowsからあまり離れずにな…

SAT大蔵経テキストデータベース研究会 公開ワークショップ

SAT大蔵経テキストデータベース研究会「仏教研究におけるデジタル技術の現在 〜SAT DBの具体的な活用手法について」 日時:2015年5月22日(金) 16:30〜18:00場所:京都大学・教育学部・第7演習室 (吉田キャンパス本部構内・総合研究2号館B1F)講師:永崎研…

Web用の画像ビューワをさがして(書きかけ)

先日、京大にてシンポジウムを開催した折りに、若手の人と話をしていて、Webビューワの情報とか得にくくて困っている、というお話をうかがったので、知っている限りのことを少しずつメモしていくことにしました。間違っているところなどありましたらお知らせ…

「大蔵経テキストデータベース」では何ができるのか

「大蔵経テキストデータベース」では何ができるのか、についての概略を簡潔に記しておきます。なぜこういうものを書こうと思ったのか等といった前置き的なことは後述します。<全体向け> ・大正新脩大藏經の本文(脚注付)を心ゆくまで無料で読むことができ…

「データベースやデジタルリソースが研究者にとって役立つかどうか」という話は少し整理してみてから考えてみるといいかもしれません。

先日、「じんもんそん」というイベントがありまして、人文学のデータを通じて何か面白いことが出来ないかどうかということを皆で話し合ってみるという面白い会合でした。参加費も無料で、主催者の皆様には大感謝だったのですが、そこで出ていた色々な話のう…

Europeanaを実際に使ってみました。

最近、Europeana がすごいということで各方面が大変賑わっているのですが、プロジェクトや政策としてのすごさはよく伝わってくる割に、内容についての話があんまり聞こえてこないので、実際にどれくらいのところに来ているのか、試してみました。といっても…

デジタルアーカイブの持続可能性に向けて

「デジタルアーカイブ」という言葉が再び脚光を浴びるようになってきている。人文学におけるデジタル化に関わる者としてはありがたい限りである。古典資料に関しては国文学研究資料館で巨大プロジェクトが動き出しており、科研費の基盤研究でも大型の研究助…

デジタル・ヒューマニティーズ(デジタル人文学、人文情報学、etc...)がよくわからない人のために

デジタル・ヒューマニティーズ(デジタル人文学、人文情報学、etc...)がよくわからない、という質問をよくいただきます。そこで、なるべくわかりやすいようにご説明すべく、ブログ記事をしたためてみました。とりあえずここでは、デジタル・ヒューマニティ…

江戸時代の出版に関してのメモ

江戸時代の著作権については、 大谷 卓史「江戸時代における「板権」」『情報管理』Vol. 55 (2012) No. 11 pp. 852-854.https://www.jstage.jst.go.jp/article/johokanri/55/11/55_852/_htmlにてまとめられている。基本的な知識はこれで十分に得られると思わ…

大正新脩大藏經刊行に関わるあれこれ

この件は、以前にツィッタ連投して書いたことがありましたが、改めてちょっと書いてみます。(書きかけ)

php-mbstringに関するメモ

Redhat6でyumの設定を直したらphp-mbstringがupdateできなくなった。今までの方法でもうまくいかないのでどうしたものかと思っていたら(ちょっとダークな気分になっていたが)、チャンネル名が変わったようであることに気がついて、以下のコマンドでなんと…

いまさら、Unicodeの漢字をさらに増やそうとしているのですが…

Unicodeの漢字をさらに増やそうとしています。うまくいけば、CJK Unified Ideographs Extension F となる予定のものです。大正新脩大藏經に登場する外字をUnicodeで使えるようにしようとする話で、今回は3000字ほど提案しました。実は、すでに情報処理学会「…