ジャパンサーチ(BETA)を探検 その5 少しマニアックな使い方

これまでの記事に引き続き、ジャパンサーチ(BETA)の探検です。再び、検索してみようとしますが、こういう風にして使ってくると、検索がメインのサイトではないというメッセージなのではないか、という気がしてきますね。実際にそういうところを目指しているのかもしれません。そうすると、細々と検索するユーザは微妙にお呼びでないのかな・・・という気もしてきますが、それでも検索できますので、見捨てられたわけではないと思って再びやってみます。一応、簡単なframeで検索できるようなラッパーを作ってみようとしましたが、セキュリティの関係で、外部サイトからframeで読み込めないように設定されているみたいで、残念ながら、そんな簡単な回避策は許されないようでした。まあ、何かブラウザブラグイン的なものを作ってしまえばよいのだろうとは思います。どなたか、ささっと作ってくださるとありがたいですね。

ということで、再び、ジャパンサーチ(BETA)の検索インターフェイスにて、今度は、少しマニアックな感じで資料を探してみます。2-3世紀くらいの仏教思想家、龍樹で検索してみます。この人は、インドの人なので、本名はサンスクリット語でナーガールジュナという名前なのですが、中国にてこの人の著作が翻訳された際には龍樹or竜樹と表記されて、日本にもその名前で伝わっています。というわけで、それぞれの名前で検索してみます。龍樹と竜樹は1,586件、ナーガールジュナは35件、nagarjunaは322件、Nāgārjunaは107件、नागार्जुनは2件でした。インドの人でもこれだけの情報がジャパンサーチに入っているというのは、日本の知的関心の幅広さを示しているようでありがたいことですが、とりあえず同じ人の名前なので、まとめて引けるとありがたいですね。VIAFだと http://viaf.org/viaf/8711937 ですので、ここから別名情報をとってくるという手もあるかもしれませんね。

ちなみに、ここまでと違って、仕事で使うこともあるので、ウェブ公開でないコンテンツでも、有用そうなものがあれば入手のための手続きなどもしていいような話です。そこで、まずは「龍樹」の検索結果にてファセットを眺めてみます。検索結果の内容を想像するには、「データベース」「カテゴリー」「サブカテゴリー」あたりが有用でしょうか。「サブカテゴリー」で「古典籍 1」となっているので、とりあえず選んでみます。と、「京都大学附属図書館 立命館大学アート・リサーチセンター」というところのものがヒットします。タイトルは「五蔵論・龍樹菩薩眼論・香譜」となっていますので、このタイトルでヒットしたのでしょう。リンクをたどってみると、所蔵機関 京都大学附属図書館、連携機関 立命館大学アート・リサーチセンター、という風になっています。デジタルコンテンツの二次利用条件は、教育利用○、非商用利用○、商用利用×、となっています。リンク先の「ARC古典籍ポータルデータベース」に行くと、「国文研検索」「NIJL閲覧」等のボタンが表示されていて、ボタンをクリックすると、国文学研究資料館のサイトにジャンプするようです。原所蔵者は京都大学附属図書館、となっています。あれ?と思って、京都大学附属図書館のデジタルアーカイブの方で「龍樹菩薩眼論」で検索すると、2件ありました。こちらのサイトでは、利用条件は「画像二次利用自由(所蔵表示)」という風になっていました。本家サイト(?)で付与されている利用条件もジャパンサーチで確認できるようになっているといいですね。なお、この資料の画像は、国文学研究資料館でも見られますが、本家の京都大学附属図書館のサイトの方がさくさく閲覧できるような感じです。また、京大附属図書館では2件ヒットするところがジャパンサーチでも国文学研究資料館の検索でも1件しかヒットしないので、新しくデジタル化されたメタデータがまだ共有されていないということなのでしょうか。ここら辺は、最新情報と同期させられるとよいのですが、京都大学図書館のメタデータがジャパンサーチにもう少しダイレクトに流れるようになるとよいのでしょうか。

内容については、京大図書館の富士川文庫に入っているとのことですので、おそらくは医学書です。ざっと見た感じだと、目の病気についての解説書のように思えます。さて、これは果たして、今回目指している(VIAFで指している)龍樹の著作だろうか、ということも少し気になりますので、もう少し詳しい情報はないものかと思って「龍樹菩薩眼論」でジャパンサーチで検索してみましたが、特に他にヒットしないようです。では・・・と思ってGoogleで検索してみると、色々ヒットする中に、「ナーガールジュナと医術--『龍樹眼論』の成立と展開 」という論文PDFがみつかりました。CiNiiでも論文情報はヒットしますが、論文PDFへのリンクは張られていないようです。これをざっと読んでみると、龍樹に仮託されたインド医学書の中国語訳のようです。やはり、古典籍のようなものは、このようにして解説してくれている論文を読むことができるとずいぶん扱いが楽になります。(というか、こういうものがなければ、ジャパンサーチで見つかる貴重なコンテンツをうまく扱うのはちょっと難しいのではないかという気もします)

ということで、これは、現在検索している龍樹とは直接には関係ないようであることがわかりましたので、次に行きましょう。コンテンツをウェブ公開に限定してみると、「大智度経論巻第六十九」という、これも龍樹に帰せられている資料がColBase提供コンテンツとしてリストされているので、このコンテンツ情報ページに行ってみます。デジタルコンテンツの二次利用条件はColBaseですのでCC BY相当ですね。「解説」を見ると石山寺旧蔵の写本となっていて、すべてのメタデータを表示してみると「銘文等」の項目に「天平六年歳次十一月二十三日 針間国賀茂郡既多寺衣縫造男国書写奥書 白点朱点あり」となっています。これはなかなか貴重な感じの資料ですね。そこで、ColBaseに行ってみます・・・と、京都国立博物館の所蔵品で、画像も3つ表示されていますが、これは巻物の最初と途中と最後の三枚だけを表示しているようで、全体像はわからないようです。こういう場合、奥書さえ見られればいい人には十分ですが、本文まで見たい人には結局内容はわからないので、デジタルコンテンツありとすべきかどうか、悩ましいところです。また、 奥書には天平六年…写と書いてあるので、天平六年という年号はメタデータとして拾っておくことができてもいいかもしれませんね。これは、たとえば、HuTimeの暦変換サービスにこの奥書を読み込ませれば、「C.E. 0734-12-22」を返してくれますので、そういうものを適宜フックするような仕掛けができるといいかもしれませんね。針間国賀茂郡既多寺という地名も、オープンデータとして提供されている歴史地名データを見ると播磨國 賀茂郡というところまでは位置情報がとれました。ググってみると、兵庫県加西市殿原町の殿原廃寺に比定されているという情報もありますので、地図上での座標情報もとれそうですね。ちなみに、他に既多寺にまつわる資料はジャパンサーチにはないのかな、と思って検索しようとしてみますが、そうするとやはり、ドラッグしてテキスト選択すると検索ボタンがポップアップする、というインターフェイスがあると便利ですね。現状だと、右上の虫眼鏡アイコンまでマウスポインタをドラッグしなければなりません。タブキー押し下げで検索窓表示&フォーカスでもいいんですが、今、ここのテキストをいじっているタイミングだと、タブキー押し下げでそうなるのはかえって直感に反しているような気がするので、ここはやはりポップアップ検索ボタンがほしいところです。

既多寺で検索すると、出ますね。奈良国立博物館所蔵の大智度論 巻第六十六(播磨国既多寺知識経)も表示されます。こちらはメタデータのところに 「時代世紀」という項目があって、「奈良時代・天平6(734)」と記載されていました。機械可読にもなっているといいですね。(あるいは、今のところは この文字列をパースするしかないでしょうか?)一方、先ほどのものとは違い、奥書の情報はありませんでした。が、リンク先のColBaseの 当該ページに掲載されている画像は見ることができました。それによると、十一月二十三日写となっていました。京都国立博物館のものと同じ日ですね。 残念ながら、こちらも画像は部分的にしか提供されていませんでした。

既多寺の大智度論で見てきましたので、他にもないのかなと思ってググってみると、 神戸市立博物館に、巻第九十一があるようです。 拡大表示もできると書いてあるのでわくわくしながらクリックしてみると、「Adobe Flash Playerはブロックされています」。めげずにFlashを許可して表示してみると、 奥書には同じ日付が書かれていました。そういえば筑波大学図書館にも似たようなものがあったなと思って見てみると、こちらもFlashで、巻第七十でした。それから、島根大学のは巻第六十二、巻第六十七 みたいですね。島根大学のはIIIFにも対応しているものもあるので、ジャパンサーチにも入ると見やすくなりそうですね。京大にも巻第四十があり、こちらもIIIFに対応しています。なお、IIIF対応のものに関しては、こちらのサイトで「大智度論」で検索するとリストされるようになっています。

ジャパンサーチでの「既多寺」の検索結果リストでは、全国書誌というデータベースからもヒットしてますので、律令国家史論集という本のコンテンツ情報ページを開いてみますと、既多寺の表記はありません。あれ?と思って メタデータをすべて表示してみると、色々表示されるのですが、文字が多い上に詰まっていてなかなか見つけられません。こんなときはページ内検索です。 ・・・というわけで、みつかりました。内容細目で「既多寺大智度論と針間国造」というのがありました。かなりばっちり、この写本をめぐる状況に ついての情報が得られそうです。著作権が切れている本ではないので、ウェブで見るのは諦めた方がよさそうです。ですので、 ここから先、近くの図書館に蔵書がないか探してもよいのですが、買ってもいいような気がするので、 日本の古本屋サイトで検索してみます。・・・もうちょっと安ければ買ってもよかったですかね。しかし、きちんと理由付けをした上で、全国書誌のデータベースや NDLデジタルコレクションのコンテンツ情報ページからは、日本の古本屋サイトへのリンクを張っておいていただくと、便利で、かつ 市場活性化にもつながるのではないかと思ったところでした。(新刊本もなんとかできるとなおよいかもしれませんが。) 既多寺でググってみると、他にもいくつか論文等がヒットしますので、そういうのも見てみるとより理解が深まりそうです。

という感じで色々調べていくことができますが、そうすると、調べたことを残しておいて、他の人にも使えるようにできると楽かもしれません。 論文の内容をそのままコピペすることはできませんが、要約くらいで、きちんと参照元も記載しておくなら、有益な情報提供ということに なるでしょう。ジャパンサーチ(BETA)としては、そういうことも視野に入れているように見えますので、次回はそこら辺にもう少し注目してみましょう。

ジャパンサーチ(BETA)を探検 その4 鯰?ナマズ?

ジャパンサーチで古地図を探してみたり仏像を調べて見たりしました。こういった文化的なものとは別に、ジャパンサーチでは生物関係の資料も豊富のようです。個人的には、魚や両生類は少々好きなので、少しそういう方面からの検索もしてみます。

というわけで、また、ジャパンサーチのサイトにアクセスして右上の虫眼鏡アイコンにカーソルを持って行って・・・(と、何度も同じ事を書いていてうっとうしいと思われる人もそろそろおられると思いますが、実際にその操作を毎回している私にはもっとうっとうしくて、やや苦痛になってきています。もし、このデザインを維持することが至上命題なのであれば、非タッチパネル利用者に向けて、せめてタブキー押し下げで検索窓が開いてフォーカスが入るようにしていただきたいです)・・・まずは「鯰」で検索してみます。そうすると、1,454件見つかるのですが、浮世絵っぽいものがたくさんヒットしています。ファセットの「データベース」を見ても、国立国会図書館デジタルコレクションとかARC浮世絵ポータルデータベースなどが大量にヒットしています。これだと文化資料っぽい感じです。そこで、今度はカタカナで「ナマズ」で検索してみます。そうすると、ヒット数は3,472件になる上に、データベースの項目の一番上に「サイエンスミュージアムネット 2792」がリストされています。これですね。カテゴリーの項目にも「自然史・理工学 2851」となっています。試しに一番上にヒットしているアイテムをクリックしてみると、「魚類写真資料データベース」へのリンクが表示され、ボタンをクリックすると少し大きな写真画像が表示されます。利用条件については、ちょっとわかりにくいですね。教育利用・商用利用・非商用利用のいずれも「-」となっていて、OKかダメなのかよくわかりません。「収録されているデータベース」の「魚類写真資料データベース」のリンクをクリックすると詳しい情報が表示されますが、そこには「個々の写真の著作権は神奈川県立生命の星・地球博物館または撮影者に帰属します」というような記述があります。「または」となっているので、利用の確認は、まず神奈川県立生命の星・地球博物館のお手を患わせなければならないような感じで、なかなか大変そうですね。メタデータについてはCC0となっていますので、これを使って何かできると面白いのかもしれません。メタデータに含まれる撮影者の名前で検索してみると非常にたくさんの写真を撮ってらっしゃる人であることがわかります。

サイエンスミュージアムネットの方も見てみましょう。これについては、まずは公式サイトの方をみると大体概要がつかめそうな感じです。これによると、「標本情報」と「採集に関する情報」が入っているようですので、ジャパンサーチでヒットしているものこれらの情報なのでしょう。メタデータを見てみると、 採集した場所とおぼしき地名も出てきます。おそらくは、こういうものを地図上にマッピングしたり最終日時を年表上に載せてみたりなど、こういったデータを使って色々やっている人もおられるのではないかと想像されるデータの整備状況です。ただ、メタデータの利用条件は、こちらにアクセスしてみると「データセットによりCC0あるいはCC BYあるいはCC BY-NC。詳細は利用規定参照。」という風になっていて、この業界の外の人間だとちょっとよくわからないですね。(複数のデータセットの組み合わせであることがこの利用条件からは推測できますがジャパンサーチのサイトでみているだけだとよくわかりません。)

このあたりは、利用条件の整備と、やはり、出典情報として記載すべき内容のわかりやすい表示があるとありがたいですね。

それから、まったくの素人なので的外れなことを気にしているかもしれないのですが、メタデータとして記載されている生物の分類は、時々変更されて、データとしても書き換える必要がでてくるのではないかということが少し気になっています。もしそうであるなら、ジャパンサーチ上のメタデータとの同期をどういうワークフローで行うか、によって、ジャパンサーチのデータの信頼性やそれに基づく扱い方に違いが出てくるのではないかというような想像をしております。一度ダウンロードしたデータはずっと使って大丈夫なのか、あるいは、時々同期をとって更新した方がいいのか、そうだとすると、更新頻度やタイミングはどうすればいいのか、といったあたりが、門外漢としてデータを扱ってみようとする場合に、どうしても気になるところです。特に、オープン・サイエンスやシティズン・サイエンスといった枠組みを意識するのであれば、そういう情報にアクセスしやすくしておくことも有益かと思われます。

なお、素人的な感想で恐縮ですが、「ナマズ」と「鯰」でヒットするものが全然違うというのは実に面白いですね。通常、シソーラス検索的な機能を導入することで、「鯰」でも「ナマズ」でも同じものがヒットするようにしてしまうものなのですが、ベータ版だからなのか、敢えてそうしているのかはわかりませんが、カタカナと漢字が資料を扱う立場の違いを明瞭に表す典型例のように思えました。こうなってくると、「鯰」と「ナマズ」に限らず、漢字とカタカナの検索を区別できる機能用意しておくことで利用者の「発見」を促すことができたりして、面白さが増すかもしれませんね。

ジャパンサーチ(BETA)を探検 その3

前回に続き、素人路線ということで、もう少し薬師如来像についてジャパンサーチ上での探検を続けてみます。

「薬師如来」だと1,213件なのですが、「薬師如来像」で検索すると318件になります。なるほど、像かそうでないかで違うのか、 と思いきや、「薬師如来立像」もヒットしてないようです。これは、少し考えてみると当たり前のことではありますが、油断は禁物ですね。 こういうのも「像」⇒「立像」というようなあいまい検索ができるといいのかなあ、とは思います。曖昧検索も、 カスタマイズできたり、ユーザグループで類義語辞書を共有できたりするとなおよいのかもしれません。 ただ、この場合は「薬師如来 像」でAND検索することで960件となって「薬師如来立像」も検索できましたので、当面、利用者側としては AND検索で切り抜けることを考えるといいのかもしれません。

さて、薬師如来像で960件ヒットしたので、ここから何か面白いことはできないかなともう少し考えてみます。960件だと、 1つ1つみていくべき数ではありません。そこで再びファセットに注目してみます。Webで見られないコンテンツを見に行ったり 利用請求したりするような濃いユーザではありませんので、とりあえず再び「コンテンツ公開」の項目で「ウェブ公開 112」 を選んでみます。なんとなく見てみたいのは仏像ですので、仏像の画像を見られそうなのはどれかな…と思って ファセットを眺めてみると、「カテゴリー」のところで「美術 20」「文化財 19」といったものがあります。二つまとめて 選んでみたいですね。とりあえず「美術」をクリックしてみると、20件絞り込まれます。しかしここでなんと、 「カテゴリー」を改めて見てみると、「文化財 19」というのもまだ残っています。この場合、おそらく、 カテゴリーの欄に美術かつ文化財という情報が並記されているレコードが19件あるということなのでしょう。 そして、「データベース」の項目を見ると「ColBase 19」「ARC 浮世絵ポータルデータベース 1」となっています。 せっかくですので、まずはARC 浮世絵ポータルデータベースの方をみてみましょう。コンテンツ情報ページを見ると 「所蔵機関」は「東京都立中央図書館」となっています。「連携機関」が「立命館大学アート・リサーチセンター」、 「収録されているデータベース」は「ARC浮世絵ポータルデータベース」です。ここでも少しメタデータが付与されて いますが、その利用条件は所蔵機関から提示されるものなのか、連携機関からなのか、このページからだとちょっと よくわからないですね。やはりこの画面でそれが明示されてコピペできるようになっているとありがたいですね。

さて、タイトル「薬師如来像(国華第一五三号)(写真)」の下にある「ARC浮世絵ポータルデータベース」というボタンを クリックして、その先のページに行ってみます。が、これはうまくアクセスできませんでした。リンク先のサイトの がちょっとお休み中か、データベースが引っ越ししてしまったのかもしれません。 東京都立中央図書館 所蔵先管理No.: 343-C017 という情報も記載されていましたので、東京都立中央図書館 のサイトで別途探してみましたが、ちょっと探したくらいではうまく見つかりませんでした。筆者も、 サイト間連携サービスを構築運用することがありますが、これはなかなか難しい問題です。

ということで、残りのレコードは今のところColBaseからのものだけですので、それだけを絞り込んでみます。 19件ですので、一度に表示する件数を変更しなくても1ページで一覧できます。ページの一番下までいくと「キーワードに関連するギャラリー」 というコーナーがあり、「熊野三山」へのリンクもあります。クリックすると、熊野三山に関する解説と、色々な情報への リンクがありました。ふむふむ。新宮の本地仏が薬師如来ということで文字列検索でヒットしたような感じですね。 このページはなかなかよい感じです。ただ、今回は、薬師如来の姿をみたいという話なので、ちょっとずれますかね。ということで、また検索結果一覧に 戻ります。一つずつみていくと、多少の解説もついていて面白いですね。薬師如来立像のコンテンツ情報ページの解説をみていると 「那智山経塚から出土した一群の金銅仏中の1軀」という一節がありますので「那智山経塚」というのがちょっと気になります。他にどういう ものが一緒に出土したのでしょうか?ということで、この文字列を検索してみます。ここで「那智山経塚」をドラッグすると、検索 ボタンがポップアップする、というサイトが最近は結構増えていますが、ジャパンサーチはまだそういう機能はついてないようです。 ので、コピーして検索窓…は、右上の虫眼鏡アイコンをクリックですね、で、ペースト、です。やはり、ちょっとマウスポインタの 移動量が大きくなっちゃって不便な感じがします。正式版では色々なんとかなってもらえるとありがたいですね。

で、「那智山経塚」で検索すると、ウェブ公開されているものは2件、「観音菩薩立像」も一緒に出土したみたいですね。他に 何が一緒に出土したのか、この情報だけだとわかりませんので、ついでにググってみると、 大日如来像も出土したような感じですね。論文等で何かないかなと思ってCiNiiで検索すると2件、INBUDSというサイトで検索してみると、 3件ヒットします。 少しきちんと調べて見たくなったらこういうものも見てみるとよさそうですね。あるいは、こういった情報もジャパンサーチで 検索できるようになっていると、もうちょっとジャパンサーチの利便性が高くなりそうですね。

ということで、また薬師如来立像に戻りましょう。右の方に「♡」のアイコンがあります。これは・・・?ツィッターの お気に入りアイコンに似てるけど・・・と思ってクリックしてみると、「ノートに登録されました」と出ました。ふむふむ なるほど。「ノートを見る」というリンクも表示されますので、とりあえずクリックしてみます。そうすると、 なんと、「最初のノート」というページに遷移して、今見ていたコンテンツの情報がリストされています。なんと、 個々のコンテンツに注釈もつけられるようです。保存できるようになっていますが、使用しているWebブラウザの LocalStrageに保存されるみたいですね。サーバ側に保存されるわけではないので、データを勝手に消されたりする心配は なさそうですが、ブラウザを変えたりするとデータを読めないのでちょっと注意しておく必要がありそうですね。 ここら辺は、ベータ版なので、正式版ではまた違う感じになるかもしれませんね。

さて、まあとりあえず、いったん削除してみようかな・・と思ってアイテムのパネルの右下についている「♡(赤くなっている)」をクリックすると、 いきなり消えちゃいました。同じレコードをもう一度ノートに登録してみても、さっきつけた注釈は戻ってこないみたいです。ここも ちょっと注意が必要ですが、正式版ではもっとスマートな感じになってくれるのではないかと期待したいところです。

ノートの機能をもうちょっとだけ見てみましょう。どうやら、検索結果もノートに追加できるようです。そこで 登録してみますと・・・ノートに検索結果が丸ごと登録されて、そこからさらに、自分のノートに個別に追加していく ことができるようです。なるほどなるほど、という感じです。注釈をつけたければ、いったん個別登録してから、 ということになるようです。こうやって色々メモをしながら検索していけば、あとからさらにそれをとりまとめて 何かを作ったりすることができる、という感じの使い方を想定しているのでしょうか。既存のツールで すでにそういうことに慣れている人は既存のツールを使うでしょうが、これから初めて、という人には 割とよい感じかもしれませんね。

ということで、今回の試用レポートはここまでです。

ジャパンサーチ(BETA)を探検 その2

ジャパンサーチ(BETA)を探検してみる記事の続きです…が、意外なことに、他のブログ記事に比べると公開時のアクセス数が全然のびません。夏休みの人もおられるのかもしれませんが、ジャパンサーチ(BETA)の注目度はまだまだこれからということなのでしょうかね。

さて、相変わらず、あまり調べないままに、専門分野外のことで改めてちょっと試用してみます。先週は、台湾の高雄にある仏光山というところにご招待いただいてデジタル時代の仏教学に関する講演をしてきました。そこで、所蔵している大蔵経をみせていただいたり、そこで編纂しているデジタル大蔵経についての説明をじっくりおうかがいしたりしてきました。仕事としてはそういう感じだったのですが、一方、仏光山は仏教のテーマパークとも呼ばれる場でもあり、大きな仏像や仏画をそこここで見ることができました。釈迦牟尼仏・阿弥陀仏・薬師如来の立派な仏像なども拝見することができ、改めて東アジア一円に広がる仏教信仰の篤さに思いをはせたりしていました。そこで、仏像関係はまったく素人なのですが、日本の薬師如来像はジャパンサーチだとどういう風に出てくるのかなと気になってきたので、ちょっと調べてみることにしました。

昨日に引き続き、ジャパンサーチのページを開いてみます。さあ、検索だ・・・、と、あ、そうそう、右上にカーソルを持って行って虫眼鏡アイコンをクリックしてから、ですね。これ、タッチパネルだと使いやすいと思うのですが、自分のノートPCだとなかなか不便ですね。せめて、タブキー押し下げで検索窓が開くといいですね。これは、APIなどを使って各自が別に自分の使いやすいインターフェイスを開発しろというメッセージだとすれば優れたものだと思います。DPLAやEuropeanaだと、開発者コミュニティが割とできあがっていて周辺ソリューションもちょこちょこ開発提供されていますが、日本だと、まだそういうコミュニティが十分に育っていないので、そういう契機を提供することに取り組むのも大事だと思います。そこら辺のポリシーは私レベルの末端利用者には全然聞こえてこないので、これは正式版を待つことになるでしょうか。

というわけで、まずは薬師如来を検索してみました。1,213件見つかりました。さて、仏像関係は素人なので、ここから先、どうしたらいいのかよくわかりません。よくわからない時は、ファセットの一番上に「権利区分」が来ていても、うーん?という感じです。まずは、提供されているコンテンツの種類がわかるとありがたいなあと思います。想像するに、きっと、立体の薬師如来像の写真とか、薬師如来が書かれた絵の平面写真、あるいは、それを説明する古典籍・古文書、現代の解説書や、それについて言及している論文もあるでしょう。あと、近所の東京国立博物館でやっている特別展示会では薬師如来も並んでいることが結構あるので、そういう情報もみつかるといいなあと思います。

そこで、ファセットを上からみていくと、「カテゴリー」というのがあります。「書籍等」「文化財」「美術」「人文学」「放送番組」…などとなっています。なんと、一番下には「舞台芸術」!ということで、素人なので、まずは面白そうな舞台芸術をみてしまいます。そうすると、早稲田大学 坪内博士記念演劇博物館の奈良絵本「しやうるり」がリストされました。ありがたいことに「備考」に少し詳しい解説が出ていました。前々回からの流れで言えば、このコンテンツ情報ページを開いた際にこの「備考」欄も一緒に表示されたので、これはありがたいことでした。この備考欄のテキストを使わせてもらえるとありがたいかもしれないので、「収録されているデータベース」の項目のデータベース名「演劇博物館名品セレクション」をクリックしてみると、メタデータの利用条件も表示されて、CC BY 4.0となっていました。これはライセンス的には使いやすそうです。ただ、この場合、出典情報表示はどのようにすればいいのでしょうかね?所蔵機関は「早稲田大学 坪内博士記念演劇博物館」で、データベースは「演劇博物館名品セレクション」ですので、サイトポリシーの例からすると、ジャパンサーチ「演劇博物館名品セレクション(早稲田大学 坪内博士記念演劇博物館)」でいいのでしょうかね?ちょっとよくわからなくなってきているので今回は引用しません。やはり、コピペできる形でコンテンツ情報ページに表示していただけるとありがたいです。(あるいは表示しないでもCopyボタンだけでも)。ちなみに、「収録されているデータベース」の下、「演劇博物館名品セレクション」の左には○に囲まれたハンバーガーアイコンがあるので、とりあえずこれを何度かクリックしてみてしまいました。が、このハンバーガーアイコンは、よくある□に囲まれたハンバーガーアイコンのようにここにメニューが隠れているというわけではないようです。前回も含めて、だんだん慣れてきました。一度きちんと覚えると、「メタデータの利用条件の確認」を素早く操作できるようになってしまうので、今度は逆に、使いやすく変更されても文句を言ってしまうめんどくさいおじさんになりそうです。ですので、とりあえずBETAの段階では、あまり慣れてしまわないように注意する必要もあります。

ところで、このデータは、サイトに行ってもサムネイルしかありませんでしたので、内容を見ることはできなさそうです。しかしながら、奈良絵本のしゃうるりなら、他のところでも公開していそうな気がします。そこで、検索!と思って検索窓を探すと・・・あ、右上の虫眼鏡アイコンをクリックですね。カーソルを持って行って・・・クリック!で、「奈良絵本 しやうるり」「奈良絵本 浄瑠璃」などといくつか検索してみます。前者は5件ヒット、後者は27件ヒットでした。

 とりあえず前者のリストを見てみると、ファセットの権利区分のところには「著作権あり 3」となっています。サブカテゴリーで「映画 1」というのもありますので、やはり素人なのでわかりやすそうな「映画」をクリックしてみると、やはり同じく、「演劇博物館名品セレクション」の奈良絵本のみがリストされました。これはもう見たものですので、リストに戻って、二つ目の「浄瑠璃物語研究 : 資料と研究」を見てみましょう。そうすると、コンテンツ情報ページの著作権情報のところは「国立国会図書館/図書館送信参加館内公開」となっています。二次利用条件のところは「著作権あり」となっていて、かつ、教育利用・非商用利用・商用利用の3箇所とも×です。メタデータ一覧の下の「すべて表示」ボタンをクリックすると目次が表示されるので、なんとなく内容が想像できてありがたいです。そこで気になったので、ブラウザの「戻る」ボタンで一つ戻ります。「奈良絵本 しやうるり」で検索した結果一覧です。「権利区分」で「著作権あり3」となっていますが、この場合は3件ともWeb上では閲覧できないもののようです。権利区分としては「著作権あり」で正しいのだと思いますが、著作権ありでもWebで閲覧できるものもあるのではないかと思いますし、一方、たとえばCCライセンスでもCC0以外は著作権はあることが多いので、「著作権あり」という表記はちょっとミスリーディングのおそれありかもという気がします。Webで閲覧できるかどうかは「コンテンツ公開」というファセット項目があってそこで「限定公開」となっているので、そこであわせて判断せよということなのでしょうね。ただ、これもちょっとハードルが高い感じがしますね。普通の人に気楽に使ってもらうことを目指すなら、「コンテンツ公開」と「権利区分」をもう少し整理できるといいのかなあとも思いました。

 さて、とにかく、「奈良絵本 しやうるり」では薬師如来にはあまり迫れなかったので、次に「奈良絵本 浄瑠璃」を検索です。一覧に戻る前にコンテンツ情報ページから検索、と思ったらやはり虫眼鏡アイコンをクリックしなければならないようである上に、虫眼鏡アイコンをクリックしても、先ほど入力したキーワードは表示されてくれません。では前のページに戻ってみるか・・・と、戻ると、ページとしてはちょっと重いですが、多分キャッシュで残っていてくれると思いますので、この方が軽いでしょうかね。検索キーワード欄には「奈良絵本 しやうるり」が残っていますので「奈良絵本 浄瑠璃」と書き換えて検索です。そんなのめんどくさがらずに毎回入力したっていいじゃないか、と思う人もおられると思いますが、まあ、ちょっと入力のしにくい文字で検索する機会も多く、なるべく前に入力した文字は再利用する方向ですので、ご容赦ください。

 「奈良絵本 浄瑠璃」だと27件ヒットします。「コンテンツ公開」を見ると「限定公開 13」「デジタルコンテンツなし 2」となっています。デジタルコンテンツなし、をクリックしてみると、2つとも演劇博物館名品セレクションでしたので、戻って(この場合は、デジタルコンテンツなし、のチェックボックスのチェックを外すと戻ります)、ざっと見てみますが、画像を見ることはちょっと難しそうです。そこで、別にどこかないかな・・・と思ってGoogle 検索してみますと、こういうのがありました。同じものかどうかわからないのですが、とりあえず薬師如来の申し子である浄瑠璃御前の姿が、小さいながら確認できたような気がします。サントリー美術館のサイトでしたので、こちらもジャパンサーチに参加していただけるとありがたいですね。さらにもう少し検索してみるとこういうものもありました。こちらは、立命館大学アート・リサーチセンターが提供するデータベースのようです。これは大変ありがたいですね。これもジャパンサーチに入ってくれていると、ジャパンサーチでの探し物がはかどりそうですが、もう入っているのでしょうかね?(ここら辺も、末端利用者にはよくわからないところです)。

 さて、奈良絵本につい入り込んでしましいましたが、元のテーマは薬師如来です。気を取り直して、一から検索しなおしてみたいですが、ここで少し振り返ってみると、「カテゴリー」でとりあえず「舞台芸術」を選んだところからハマっていきました。もし、「カテゴリ-」のところで、「舞台芸術」1件が「デジタルコンテンツなし」か、あるいはせめて、「Web公開なし」であることがわかっていれば、おそらくそもそも「舞台芸術」をクリックしてGoogle検索までして・・・という風にはならずに済んだでしょう。ジャパンサーチ内でユーザに楽しんでもらうなら、カテゴリー/サブカテゴリーの各項目でそれぞれにWeb公開コンテンツがどれくらいあるのか(あるいはないのか)ということも一緒に表示されているとよいかもしれません。

 それはともかく、ここまでの学びとして、ウェブ公開コンテンツを見たいのであれば最初にファセットの「コンテンツ公開」で「ウェブ公開」を選んでおけばいいということを覚えましたので、これをクリックです。それでもまだ154件も残っています。ウェブ公開なのに「著作権あり」というのがありましたので、それをちょっと見てみましょうか。NHKからのコンテンツで、メタデータが提供されています。コンテンツのページへのリンクをクリックしてみると、新日本風土記アーカイブズのサイトで動画も見ることができました。これは素晴らしいですね。ともあれ、コンテンツ利用条件は3つとも×ですので、メタデータだけでも使えるのかなと思ってみていくと…メタデータの利用条件はまだ何も書いてないようです。とりあえず、このコンテンツやメタデータを再利用して何か新しいコンテンツをつくるのは、今のところちょっと難しそうですが、とりあえず、動画で薬師寺の薬師如来像を見ることができたので、素人としてはちょっと満足してしまいました。ですので、今回はここまでとしておきます。今回は特に面白いことを提供できておらず、ここまで読んでいただいた方には申し訳ありませんが、引き続きよろしくお願いいたします。

ジャパンサーチ(BETA)を探検 踊り場にて

前回の記事では、ジャパンサーチ(BETA)の入り口あたりを探検してみました。 ダンジョンで言えば、地下一階を探検して、下層に向かう最初の階段にたどり着いたあたりかなと思います。そこで、踊り場にて、ちょっと一休みしながら 地下一階の探検を振り返ってみたいと思います。

前回記事で検索した資料は、木版資料でした。一つの内容について、複製が物理的に多数存在するものであり、また、さらに、 もしかしたら、補刻や、版木全体の彫り直しなどによって、一見すると同じものに見えるが実はちょっと異なっているものも あるかもしれない、というものです。実際のところ、国立国会図書館や国文学研究資料館から公開されている画像は、 ざっと見たところ同じものであるように見え、スタンフォード大学図書館から公開されているものも色は異なるものの、 基本的には同じもののようです。詳しく比較してみたり、重ねて透過してみたりすると、もしかしたら違いが 発見できるかもしれないが、それはそれで楽しい作業になりそうです。あるいは、すでに誰かが研究発表をしている こともあるかもしれません。その場合は、それを追体験して楽しむこともできそうです。

ところで、「南瞻部洲萬國掌菓之圖」のように、同じ内容の資料が日本各地、さらには世界中に広がっている例 というのは他にたくさんあります。いわゆる古典籍と呼ばれるものは大抵そうです。さらに言えば、たとえば 「源氏物語」であれば、江戸時代に別々の出版者が作って刊行した、内容はほとんど同じだけど版式が異なるものがたくさん残ってますし、 木版出版が広まる前は写本で伝えられてきており、同じ源氏物語でも形態や内容に少しずつ異なるものが様々に残されています。 ジャパンサーチというからには、そういった資料をうまくまとめて探せるようになっていると、とても ありがたいところです。

ではジャパンサーチがそういうまとめ作業まですべきなのかと言えば、それはちょっと大変過ぎます。 むしろ、既存のデータをうまく使う方向を考えるとよいのではないかと思います。古典籍の書名であれば、 国文学研究資料館の日本古典籍総合データベースというものがあり、たとえばこのように、 世界中の源氏物語の書誌情報を集めた上に、画像公開しているものについては画像へのリンクもはってあります。 ジャパンサーチの古典籍版とも言えるもののようにも思えますが、いずれにしても、たとえば 「源氏物語」で検索した時に、このデータへのリンクのURLが検索結果一覧の左側にある ファセットに表示されてくれるか、「書名典拠情報」などとして検索結果一覧の一番上に出てくれたりすると、 税金で構築されている二つの巨大なデータベースが納税者にとって使いやすい形で提供されることになると 思いますので、ぜひ期待したいところです。双方に余裕があれば、双方のデータをマージすることで お互いに作業効率をあげるようなことが可能かもしれませんが、それはまた別途、少し先の課題として 考えていただくのがよいのではないかとも思います。

また、同様に、人名に関しても、いわゆる人名典拠データベースが いくつかありますので、人名検索した際には、典拠情報データベースへのリンクも同時に表示されて くれるとありがたい、というか、とても便利なのではないかと思う次第です。

それから、もう一つ、振り返ってみて、なんとかしていただきたいなと思ったのは、「出典情報を 書きやすくしていただきたい」ということです。せっかくデジタルデータを集めているのですから、 利用者に出典情報を調べさせて書かせるのではなく、「このテキストをコピーして貼り付ければ出典情報として 使える」というようなテキストを、コンテンツ情報ページに表示しておいていただけると大変ありがたい のです。あるいはさらに「copy」ボタンも用意して、クリックすればクリップボードにコピーされる という風になっているとなおありがたいです。この種の機能は、たとえばSAT大蔵経テキストデータベースなどでも 10年くらい前から提供しているような、出典を重視するデータベースでは割と一般的な機能ですので、 そんなに難しいことではないと思います。

ということで、地下2階の探索に向けて、また少し準備をしてみます。

ジャパンサーチ(BETA)を探検その1

まだベータ版ですのでこれから色々良くなっていくところだと思いますが、ベータ版をレビューすべしという声があちこちから聞かれるので、私も少し触ってみることにしました。

色々な使い方があると思いますが、まずは、ちょうど用事があったので、江戸時代の有名な地図、「南瞻部洲萬國掌菓之圖」をみてみました。これは、 18世紀くらいのもので、古いですが、それほど珍しいものではなく、Web上での有名どころでは、 Devid Rumsey Map Collectionにて色刷りのものが公開されており、これが スタンフォード大学図書館からはIIIF対応で公開されていて、 さらにWikipediaでもこの画像を見ることができます。また、数ヶ月前の東洋文庫@駒込のあたりでの展示会でも同じく色刷りの現物が展示されていました。

さて、検索しようとしてみますと・・・、どこから検索したらいいのでしょうか?うーん?タブキーを押し下げするとキーワード入力欄に 飛んでくれるかな?と思って押し下げしてみたらいかなかったので、ううーん?と思って画面を見回してみると、右上に虫眼鏡のアイコンが あります。これをクリックしてみたら、出ました!検索キーワード入力欄です。「太刀」「埴輪」「祭り」「天皇」という ボタンも一緒に並んでいますので、クリックするとキーワード入力欄に入力してくれるのかな・・・と思って、ボタンをクリックしたら、 いきなり検索結果に飛んでしまいました。このタイミングでいきなりHTTP/1.1で、80リクエスト、1.1MB transferredはちょっときついですね。 手元がおぼつかない私のようなおじさんだと、海外出張中につい間違って押してしまって、500MBくらいしかない時もある 貴重なレンタルWIFIルータの使用可能データ量を無駄に使ってしまいそうです。どちらかといえば、クリックしたら キーワードが検索窓に入って、その後、検索ボタンクリックか、Return/Enterキー押し下げで検索してもらえると ありがたいですね。

さて、太刀の検索結果も見てみようと思いましたが、検索結果が結構多いので、これはまた今度ということにして、 「南瞻部洲萬國掌菓之圖」を検索してみます。そうすると、おお、出ましたね。一番上に国立国会図書館の 資料、次は「国会図書館 立命館大学アート・リサーチセンター (ARC古典籍ポータルデータベース)」、 次は「東京国立博物館 独立行政法人国立文化財機構 (ColBase)」、 「デジタルアーカイブシステムADEAC 国立国会図書館 (国立国会図書館サーチ)」 という感じになっています。この記載の仕方、いわゆる「つなぎ役(正式名称をよくわかってなくて申し訳ありません)」 の名前と実際の提供機関の名前が並んで、さらに、その次に、リンク先データベースが並んでいるという風に なっているのかなと思いましたが、検索結果としてリストされたコンテンツに付与できる少ない情報の中に この情報を入れるべきなのかどうか、という点は少し気になります。提供機関やつなぎ役(?)からすると 載せてもらわないと貢献がみえないので困る、ということで理由も気持ちもよくわかりますが、これほど 格好いいデザインを作れるのであれば、そのあたりも何か少しうまいソリューションを作り込んで いただけるのではないかなと思います。

さて、とりあえず、ユーザとしては、まずは画像を見たいので、一番上の国立国会図書館のものを クリックしてみます。そうすると、EuropeanaのようにIIIFコンテンツをそのまま表示してくれていて、 拡大縮小もできます。これはなかなかよい感じです。二次利用条件もどういう風に利用できるか わかりやすく提示されていて、パブリックドメインであることがすぐわかる上に、 「教育利用」「商用利用」「非商用利用」でそれぞれ可能かどうかも○がついているのでよくわかります。 ただ、この表示の仕方だと、いわゆるCC BY-SAにおける「SA」をどう表現できるのか、というのが ちょっと気になるところです。それはまた次の機会に見てみましょう。

メタデータもRDFで取れるようになっているので、これはなかなか便利ですね。

ただ、画像としては、古地図なのに分割撮影しまっていて(これはなんとかして もらいたい)、色もついていないので(これはややミーハー気味)、もう少し 別のものはないかなと思って次のものを見てみます。。。と思って、検索結果一覧に戻る リンクを探してみますが、うーん?よくわからないので、とりあえずブラウザの「戻る」 ボタンで戻ってみます。そこで、2つ目をクリックしてみます。そうすると、 所属機関は国立国会図書館、連携機関は立命館大学アートリサーチセンター、となっています。 「所属」というのは、メタデータの所属が国立国会図書館になっているというようなこと なのでしょうか?ここでは、CC BY-NC-SAなので商用利用に「×」がついています。 ただ、この表記だと、SAが表現されないのがちょっと気になりますが、(?)アイコンを クリックするとポップアップでライセンスの解説が表示されるのでよいでしょうかね。さらに ポップアップをクリックすると、CCの本家ページへのリンクもありますので、 利用者側が気をつけさえすれば万全ですね。

さて、このコンテンツでは、リンク先のページにいけば画像が見られるということのようですので リンクをクリックすると、時々見かけるARC古典籍ポータルデータベースの検索結果一覧の ようなページが表示されます。URLのパラメータを見るとf1==NDL-2542466という風になっている ので、ここで複数コンテンツがリストされるということはなく、あくまでも、ID指定で そのコンテンツの情報のみが表示されるということなのでしょう。

・・・と思ったのですが、このリストで「ORG閲覧」ボタンをクリックすると、先ほどみたNDLの コンテンツにジャンプするようです。一方、「国文研検索」ボタンをクリックすると、国文学研究資料館の 日本古典籍総合目録データベースの当該書誌情報にジャンプするようです。ここでは 国文学研究資料館所蔵の画像へのリンクが表示されているので、それをクリックすると、 インフォコム株式会社謹製の旧ビューワで画像が表示され、新しいIIIF対応ビューワへのリンクも 表示されるようです。さらに、旧ビューワ上で国文学研究資料館が作った詳細書誌情報への リンクも表示されていて、これはかなり以前からずっと要望していたものでしたので、いつのまにか 実装されていたようで大変胸熱です。 やや脱線しましたが、ついでにもう少し脱線すると、そういえば、国文学研究資料館が公開している画像が ジャパンサーチでの検索結果リストには表示されなかったような気がしますが、これはどういうことなのでしょうか? 国文学研究資料館は連携機関に入っていますので、検索語の具合でヒットしなかったということなのか、 それとも、日本古典籍総合目録データベースはアートリサーチセンター経由でジャパンサーチに 情報提供することになったのか、一般ユーザである私には色々想像するしかありません。 いずれにしても、アーチリサーチセンターは、それ自体が日本文化ポータルサイトとしての機能を 追求している面があるのだろうと思いますが(そしてそのことはとても貴重な取り組みだと思います)、 ジャパンサーチユーザからすると、 独自コンテンツなのか、いわゆるパスファインダー的な情報提供なのか、がジャパンサーチ上で わかるようになっているとありがたいところです。これは、アートリサーチセンターというよりも 「つなぎ役」的なところで対応できるとよいことかもしれません。 ついでに、そうすると、ジャパンサーチ上ではCC BY-NC-SA(表示-非営利-継承)という ライセンス表示になっていますが、リンク先デジタルコンテンツはPDMとCC BY-SAですので、 「デジタルコンテンツの二次利用条件」と記載されているものは、メタデータのみに適用される ものと考えるべきでしょうか?・・・と思って色々見てみると(色々見てみないといけないようですが)、 コンテンツの情報を記載しているページの中に表示されている3つの連携先リンクのうち、 「収録されているデータベース」のところの連携先リンクをクリックすると、 メタデータの利用条件についてもまとめられています。これを見る限りでは、 リンク先の条件はリンク先によるが、メタデータはCC BY-NC-SA、ということのようですね。

さて、次のリンクをクリックしてみましょう。「東京国立博物館 独立行政法人国立文化財機構」からの 情報です。「解説」のところが充実していて良いですね、

仏教宇宙観における南贍部洲は須弥山の南方の大海中に位置するインド大陸をさすという。本図は仏教系世界図として初の木版図で、広く流布し、多くの通俗版に影響を与えた。右上の日本の南に「亜(あ)墨(め)利(り)加(か)」、左上に「イタリヤ」など、欧州からの知識が反映されている。 (出典:ジャパンサーチColBase https://jpsearch.go.jp/item/cobas-141163

これはきっと、詳細に書かれている場合にのみ 表示されるようになっているのでしょうね・・・と思って、そういえば他のものは どうだったかと思って戻ってみてみました。冒頭の国立国会図書館からの情報ページ(なんと呼べばいいのかな? とりあえず「コンテンツ情報ページ」と仮に呼んでおきます) で、念のため、メタデータリストの一番下にある「すべて表示」をクリックしてみると、なんと、こんな解説が付与されてました。

頭陀浪華子製図并撰。浪華子とは鳳譚また僧濬で、華厳宗再興の祖とされる。仏教的世界観にもとづく世界図。南瞻部洲とは須弥山の東西南北にある4つの大陸のうち南の大陸で、仏教的世界観ではここが人間の住む世界とされる。北が広く南に尖ったかぶら型で、もともとは唐・天竺・日本の3国をその世界の主体とするが、西洋からの世界知識の伝来をうけて両者の融合がはかられる。本図はその代表例で、北西部に群島状のヨーロッパが描かれ、日本の南には南北アメリカ大陸と比定できる陸塊が見える。題額脇に多数の典拠資料リストがある。板行の南瞻部州図としては最初、かつ最詳の図として広く流布した。元の題簽は残るが改装。 (出典:ジャパンサーチ国立国会図書館デジタルコレクション https://jpsearch.go.jp/item/dignl-2542466 )

これは、コンテンツ情報ページのところで最初から表示されているとありがたいですし、欲を言えば、これくらいの情報が、検索結果リストを眺める際に なんらかの形で表示してもらえるとありがたいところです。ポップアップとかでもいいです。

さて、東京国立博物館のColBaseでは「デジタル化されていません。」となっていて、リンク先も画像は出ないようです。そうすると、 コンテンツ情報ページのコンテンツの二次利用条件というところは、あくまでも、画像などのコンテンツのことを示していて、 メタデータのことを指しているわけではない、と考えるべきなのでしょうね。メタデータの利用条件については 「収録されているデータベース」の「ColBase」をクリックすると、政府標準利用規約(第2.0版)であることが 確認できます。

このあたりは、ベータ版なので、正式版ではメタデータのライセンスとコンテンツのライセンスをわかりやすく区別して それぞれコンテンツ情報ページにて提示していただけると、私のようなユーザでも使いやすくなってありがたいところです。

さて、ここまで来たので、4つ目も見てみましょう。「デジタルアーカイブシステムADEAC国立国会図書館 (国立国会図書館サーチ)」と なっているものです。コンテンツ情報ページを見る限りでは、メタデータのみの提供のようですが、この 資料の特徴を表す情報としてここで見えるものは「古典籍書誌データベース、 西尾市岩瀬文庫」のみです。 「すべて表示」ボタンをクリックすると「内容細目」のところに少し詳しい解説が出ています。そこで、この解説を 参照を提示しつつ引用しようとして「国会図書館サーチ」を見てみると「利用条件は連携先によって異なります。下記「連携先一覧」をご確認ください。」 となっています。そこで、「デジタルアーカイブシステムADEAC」をクリックして見てみると、ポップアップが表示されます。ここで、 メタデータのクレジットは、

「本サービスで提供するメタデータの一部は、デジタルアーカイブシステムADEAC(TRC-ADEAC株式会社が運営)を利用してデータ公開している各機関に由来する。ライセンスは<クリエイティブ・コモンズ 表示 4.0 国際 パブリック・ライセンス> https://creativecommons.org/licenses/by/4.0/legalcode.ja である」といった表示が望ましい。」

という風に書いてありますが、

「デジタルアーカイブシステムADEAC 船橋市西図書館 所蔵」となっています。今回見ていたコンテンツは船橋市西図書館 所蔵ではないので これではないだろうと思って、このポップアップには、「デジタルアーカイブシステムADEAC「利用規定」」というリンクもあるので これをクリックしてみますと、要するに、「各ページで確認するように」となっています。ふー。ちょっと疲れてきました。さて、そこで、 コンテンツ情報ページのタイトルの下にある「国立国会図書館サーチ」をクリックすると、TRC-ADEACサイト上の「西尾市岩瀬文庫/古典籍書誌データベース」 での書誌情報が表示されます。ページの一番下に「利用規定」のリンクがありますので、これをクリックすると、 ようやく確認できました。が、 書誌情報に関する扱いについては特に記載がないので、引用するだけなら、普通に引用として参照元を示せばそれでよいという ことかもしれません。

なお、ここまでの利用で少し思ったことですが、ジャパンサーチには古文書と古典籍の情報がたくさん 入っているはずで(これからも増えるはずで)、しかし、古文書と古典籍は、探し方や見つかってからの扱いがかなり異なっていて、 こだわりポイントも結構違うのではないかと思います。そのあたりへの配慮を組み込むための仕組みも ある程度できるといいのかもしれないと思ったところでした。

それから、今回のケースだと、「見たい日本の資料は海外サイトやWikipediaにある」という状況なので、そういうのもいずれ なんとかできるといいですね。

さて、もう少しヒットしたものがありますが、今日はここまでにしたいと思います。これくらい書いておけば、 UXの専門家なら、どこをどうつなげばここでの苦労を半減させられるか大体把握できると思いますので、ご検討のほど、よろしくお願いいたします。

フリーのOCRソフトTesseract 4 が簡単に使えるようになってました!

しばらく前から時々試してみていたTesseract ですが、気がついたらえらく使いやすい感じになっていたので、また試してみました。

なんと、メジャーなLinuxディストリビューションごとにバイナリが用意されていたのです。こういうものは 「Ubuntuだとこうやってインストールできます」という話が多くて、RHEL/CentOSユーザな私はコンパイル環境があわなくて泣きながら作業することが 多かったのですが、今回はなんと、RHELにもCentOSにもバイナリが用意されています。さっそく、バイナリインストールです。

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract 
yum install tesseract-langpack-jpn

これでいきなり使えるようになってしまったようです。コマンドラインで

$ tesseract 画像ファイル名 出力先 -l jpn

ということで使えてしまいました。ただ、トレーニング済みデータのもっと大きなものが公開されていましたので、 それをダウンロードして設置…は、CentOS7では以下のURLに置いてあるようでしたので、そこのファイルを 置き換えました。

/usr/share/tesseract/4/tessdata/

そうすると、なんだかちょっと精度が高まったような気がします。ちなみに縦書き日本語用の jpn_vert.traineddata というのもありまして 縦書き資料ではこちらを使って見ると多少精度が高まります。その場合、以下のようなコマンドになるようです。

$ tesseract 画像ファイル名 出力先 -l jpn_vert

いずれにしましても、とりあえずLinuxのコマンドラインから使えるようになりましたので、シェルスクリプトでの繰り返し処理さえ書ければ、各地の公開画像を色々ダウンロードしてどんどんOCRをかけてみる ことが割と簡単にできるようになりました。Tesseract3の時も一応できましたが、それよりは精度があがったような気がします。

ちなみに、精度を高めべく学習させることもできるそうですので、それについてもこれから少し試してみたいと思っております。

ということで、みんなで色々試してみましょう!