研究業績はなぜ論文でなければならないのか?パワポはダメ?

久々に、いかにもブログらしいという感じの何の役にも立たない記事を書きます。

研究業績はなぜ論文でなければならないのか?

ということは自分としては長年の謎の一つでしたが、では、パワポ資料が研究業績だと言われたらどうするだろうか、と 考えてみることにしました。

パワポ資料、研究業績だと言っても悪くないような気がします。ファイルの形式にこだわって内容を見ないなんてナンセンスです!はい終了!

…と一瞬思ってしまいそうですが、しかし、これを研究業績として評価しようと思った場合に少し難しさが生じてくるような 気がしてきました。

パワポ資料は自由です。テキストや矢印や図があちこちに登場して、 それがなんとなく重なったりつながったりしながら何かをわかりやすく 伝えようとしてきます。いらすと屋さんのかわいい絵がさらにそれを助けてくれる こともあります。

では、目の前にある素敵なパワポ資料の内容が研究業績に値するかどうかを 判断するとしたらどうでしょうか。パワポ資料は 作るだけならすぐにできてしまいますし、正しいかどうかもよくわかりませんので、 研究業績としては、やはり内容がまっとうであるかどうかを確認してみなければ どうにもなりません。

とりあえず自分で内容をよくみてみることになりますが、専門的な内容で あれば判断は難しいので、その筋の専門の人がチェックしてくれて可否を 示してくれていたりすると安心です。学術雑誌だと「査読付き」雑誌で 採録されていれば、それがある種の質保証になりますね。(とはいえ、あとで 撤回されることもありますので査読付き雑誌に採録されていれば正しいという ことでもありませんが。)

さて、それでは、他の人が作ったパワポ資料を自分が評価するとなったとき、どうでしょうか。 スライド内にちりばめられたそれらの 矢印やテキストは、どういう意味を持っていると解釈できるでしょうか。矢印の形と 意味について、作者と同じ意味づけを共有できているでしょうか。図の重なりが あったとして、そこに作者は包含関係の提示を意図しているでしょうか。それとも 単なる偶然の重なり、あるいはデザイン上の問題でしょうか。イラスト屋さんの キャラの少し影の入った表情は研究成果の表現としてどのように位置づけられているのでしょうか。 …最終的に、そのスライドが説明しようとすることを正確に理解できていると確信できそうでしょうか。

というようなことを考え始めると、そもそもそういう記号の使い方を我々は 共有していないのではないか、という気持ちになってきます。そういえば、 フローチャートがあるじゃないか!国際標準だし!ISO 5807:1985をみんなで勉強! UMLもあるぞ!!ISO/IEC 19505-2 だ!!

と思ってみても、そういえば、パワポ作者がそれをきちんと使ってくれているかどうかが はっきりしないとそもそも評価はできないぞ…ということになります。

そうすると、パワポ資料を作成するときに、記号の使い方として準拠した規格名を 書いておけばいいということになりますが、そうすると「パワポ資料を研究業績に」 という話が含意するものとはかなりかけ離れた感じの話になってしまいそうです。 まずはいずれかの記号に関する規格を勉強するところから始めなければならなそうですね。

という風に考えてみると、論文ってなかなかよくできているものですね。 基本的に、文章があって、必ず一方向に読んでいかなければならないことになっています。 しかも、よくわからないことに、文章は一方向に読んでいくしかないにも 関わらず多層的・多面的な概念や状況を描写することもできてしまいますね。 というより、論文の文章を一意に理解できるということは、それだけ 文法が子細に標準化・共通化されているということであり、そして 非常に時間をかけてそれを用いた教育が施されているということでもあります。 これはフローチャートやUMLの勉強どころの話ではなさそうな気もします。 図が付されたりすることもありますが、多くの場合、図の読み方が文章で説明され ます。数式は、順番は関係ないこともありますが、解釈の仕方が決まっているから 特に問題ありませんね。

他人が表現する「成果」なるものが妥当なものかどうかを判断するためには、 少なくとも書かれたものの内容を理解する必要があり、そのためにはその 表現の仕方を書き手と読み手が共有していなければなりません。それを割と 長い間継続できている論文という仕組みはなかなか素晴らしいものであり、 しかし、そのために文法の標準化や教育というコストを社会全体としてかなり大きく かけてきているということにも圧倒されます。そのようなことを 踏まえつつパワポ資料を研究業績として きちんと扱おうと思ったら、そこで用いられる記号群やそれらの配置の 仕方について、相当程度標準化するとともに、その内容を容易に共有できる ようにトレーニングの仕組みも用意する必要がある…ということになるでしょうか。

いやはや、なかなか大変そうですね。

IIIFでMirador3をMirador2のような便利さで使うために

IIIFでの画像ビューワの一方の雄であるMiradorは、現行バージョンのMirador3が出てしばらく経ちます。Mirador2の更新が止まってしまったことで、Mirador3に移行するところも徐々に増えてきているようにみえます。

しかしながら、Mirador3は、Mirador2の時代に最初からセットされていたいくつかの便利な機能がプラグインとして外付けされるようになって しまいました。ただ、このプラグインの組み込みが、以前のように簡単ではありません。いったんWebpack等でビルドしないと いけないようで、普通にHTMLにJavascriptのライブラリを組み込む、というような一昔前の手軽さはもうありません。 しかも、画像上にポップアップでアノテーションが表示されるという、あの便利な機能もなくなってしまって、TIFYのように、 画像のアノテーションがかからないようになってしまい、それについてはプラグインも特に出ていませんでした。とどのつまり、 Mirador2のように使えるMirador3はないのか…と、やや困っていたのですが、その諸々の困った状況を解決したのが、 こちらのビルド版です。

このビルド版の組み込み方や経緯については、こちらの頁などを見ていただければと思います。今、非常にいそがしくなってしまって 細々ブログ記事を書いている時間がないのですが、それでも、このMirador3のビルド版は、IIIFに関わるみなさんになるべく はやく広くお伝えした方がよいかと思いまして、ちょっと大雑把な記事になってしまいましたが、ここにお知らせする次第です。 みなさまのお役に立ちましたら幸いです。

Mirador3をMirador2のような便利さで使うために

IIIFでの画像ビューワの一方の雄であるMiradorは、現行バージョンのMirador3が出てしばらく経ちます。Mirador2の更新が止まってしまったことで、Mirador3に移行するところも徐々に増えてきているようにみえます。

しかしながら、Mirador3は、Mirador2の時代に最初からセットされていたいくつかの便利な機能がプラグインとして外付けされるようになって しまいました。ただ、このプラグインの組み込みが、以前のように簡単ではありません。いったんWebpack等でビルドしないと いけないようで、普通にHTMLにJavascriptのライブラリを組み込む、というような一昔前の手軽さはもうありません。 しかも、画像上にポップアップでアノテーションが表示されるという、あの便利な機能もなくなってしまって、TIFYのように、 画像のアノテーションがかからないようになってしまい、それについてはプラグインも特に出ていませんでした。とどのつまり、 Mirador2のように使えるMirador3はないのか…と、やや困っていたのですが、その諸々の困った状況を解決したのが、 こちらのビルド版です。

このビルド版の組み込み方や経緯については、こちらの頁などを見ていただければと思います。今、非常にいそがしくなってしまって 細々ブログ記事を書いている時間がないのですが、それでも、このMirador3のビルド版は、IIIFに関わるみなさんになるべく はやく広くお伝えした方がよいかと思いまして、ちょっと大雑把な記事になってしまいましたが、ここにお知らせする次第です。 みなさまのお役に立ちましたら幸いです。

般若心経をブラウザに読んでもらう(+簡単Javascript解説)

もうすぐ50歳になるおじさんなので、新しい情報にはかなり疎くなっております。若者達から色々教えてもらうように心がけているのですが、もう記憶力が弱いのか、周囲があまりカバーしてないのか、はたまた、色々問題があって人に言うほどではないと思ってしまうのか、よくわかりませんが、いつのまにかWebブラウザは日本語どころか般若心経もダイレクトに読み上げてくれるようになってるみたいですね。ツィッタで、ブラウザが日本語読み上げもできるという話が流れてきたので、そういえばこれでお経を読んでもらえばマニ車並みの功徳が積めるかも…と思って作ってみたのがこちらです。

knagasaki.github.io

もちろん、ひらがなで読み方を与えてごにょごにょすると普通に読めてしまうのですが、 大部分はそのままでも読めてしまうというのが少々感動するところです。

ソースコードは以下の頁でも確認できます。

github.com

ポイントはいくつかありますが、一番基本になるのは以下の箇所ですね。

         var ut = new SpeechSynthesisUtterance();
         if(e.getAttribute("data-r") == undefined){
           ut.text = e.textContent;
         }
         else{
           ut.text = e.getAttribute("data-r");
         }      
         ut.lang='ja-JP';
         ut.rate = 1.4;
         speechSynthesis.speak(ut);

般若心経のテキストは<span>で分割していて、共通のclassを与えることで、forEachで回して処理できるようにしています。 その上で、一部の<span>にはdata-r classで読み方の情報をひらがなで与えています。(あまりに間違い方がひどかったので!) 各要素のテキストは、.textContentでとれますので、あとは言語.langとレート.rateの値を与えて、さらにそれをspeechSynthesis.speak() に渡せば読んでくれます。

レートに関しては、こちらの頁に詳細が書いてあります。 0.1 から 10 の範囲で設定できるようで、デフォルトは1とのことです。

言語設定はこちらの頁に一応書いてあるのですが、 具体的にどの言語に対応するかという情報は書いてないようですね。こちらをみるとBCP47準拠の書き方をしろ、ということになっていますので、あとはブラウザ依存ということになるのでしょうか?

こちらの頁には他にもいくつか設定できるプロパティがリストされているので、ちょっと試してみると 面白そうです。

それから、上記の作例だと、読んでいるフレーズだけが赤くなります。このように色を変える方法には色々あるのですが、とりあえず「1. 読んでいるフレーズに色つきクラスを与える」「2. 読み終わったらそのフレーズから色つきクラスを外す」という風にしてみています。

「読んでいる」と「読み終わったら」というのは、こういうときは大体、イベントハンドラを利用することが多いです。 こちらの頁(再掲)には「イベントハンドラー」という項目がありますので、ここを眺めてみると、SpeechSynthesisUtterance.onstart (en-US)、SpeechSynthesisUtterance.onend (en-US)、というのがあります。これですね。 それぞれの頁の用例に沿って、クラスをつけたり外したりしてみます。

         ut.onstart = function(){
           e.classList.add('read-text');
         }
         ut.onend = function(){
           e.classList.remove('read-text');      
         }

もちろん、これができるということは、対応する画像があったらそれを頁のどこかに表示してみるとか、 地図も出してみるとか、いろんなことができてしまいますね。 これだけで、ああいうものが作れてしまうのですね。時代はどんどん進みますね。

「楽譜のデジタル化」という課題

筆者は、2000年くらいからTEI (Text Encoding Initiative) ガイドラインの勉強を開始し、デジタルテキストを用いた研究の可能性と課題について、探求と実践を繰り返してきた。デジタル化とは、単にデジタルカメラで撮影してメタデータをつけるだけでなく、全文テキストを作成し、その構造を何らかの方法で機械可読な形で共有することも含んでおり、そのようにすることで、テキストを主に用いるタイプの人文学を大いに振興することができるとともに、テキストを扱う研究の伝統的な営みを未来につなげていくことができる。

一方で、「楽譜」のことは横目に見つつ、いつも気になっていた。音として再現できるようにデジタル化するのは重要だが、それだけでなく、たとえば中世写本において、テキストの内容そのものが重要であるだけでなくそこに含まれる多層的な内容もまた歴史や思想の様々な痕跡の探求に寄与するが故に構造的にデジタル化する手法がTEIガイドラインを通じて高度に発達したのと同様に、音に関する情報だけでなく、楽譜の実際の書かれ方、あるいは演奏家によるメモなど、楽譜に含まれる様々な要素も何らかの形でデジタル化された方が研究の可能性を高めるのではないか、と思っていたのだった。

そうこうしているうちに、いつのまにか、Music Enconding Initiativeガイドラインというものが発生し、 主に北米やドイツ語圏で発達しはじめていることに気がついた。名前が想起させるとおり、TEIガイドラインと互換性があるようであり、TEIガイドラインの ように、研究者の要望に応じて柔軟に様々な記載内容を構造化できるものであった。そのように、技術的なことは なんとなく想定できるのだが、しかし一方で、これが音楽研究者、楽譜を研究対象とする方々にとってどのような 意義を持つのか、どのように有用なのか、ということはまったくわからずにいた。音楽や楽譜を研究しているわけでは ないので、それで困るというわけではないのだが、DHという枠組みで研究活動をしていると、デジタル音楽学を 研究する海外の方々ともそれなりに付き合いができ、話を聞いていると、このような、楽譜をデジタル化するための 重要と思われる手法の一つが日本であまり知られていないのはちょっとまずいのではないか、という気持ちもしてきており、それは 徐々に強まってきていた。

そのようにしてとても気になってきていた状況において、このMEIガイドラインを楽譜研究とそのデジタル化の流れのなかに 位置づけることを検討し、さらに論文まで書いてくださるという若手研究者が登場したのである。 ここでは、デジタル学術編集版楽譜、という、文献学にも通じる概念とともに、関連するMusicXMLとの対比の中でMEIガイドラインを位置づけている。 楽譜のデジタル化やその研究利用に関心をお持ちの方や、いずれそれに関わるかもしれないという人は、ぜひご覧になってみていただきたい。この論文は、 以下のURLにて、機関リポジトリで無償公開されている。

関慎太朗「デジタル楽譜の類型化とデジタル楽譜文化を支える フォーマットについての考察

そして、できることなら、ご自身の取り組みのなかでこれがどう位置づけられるかを検討してみていただけたらと思っている。 さらにわがままを言わせていただけば、それを、私信でも立ち話でもエッセイでも論文でもいいので、何らかの形で筆者にも伝えていただけると、なおありがたい。

KHコーダで形態素解析用の辞書に単語を追加する方法

KHコーダを使っていると、形態素解析がうまくできない単語をどうにかしたくなることがあります。 そんな時の対策の一つとして、形態素解析辞書に単語を追加するという方法があります。 ググればなんてことのない作業なのですが、一応、調べて、やってみた、ということで、 手順を間違えなければかなり簡単なので、ここでちょっとChasenでのケースをご紹介しておきます。

先日、大学生の授業に関するツィートを集めて分析してみたことがありました。 そのときの6万件とちょっとのツィートで「オンライン」という単語を前処理してから 見てみると、以下のようになりました。

f:id:digitalnagasaki:20210714171925p:plain

ここでは、抽出語で「オンライン」という単語を検索してみていますが、 この文脈だと「オンライン授業」という単語が出てきてほしいところ、 「オンライン」と、あとは謎の未知語しかでてきてませんので、おそらく 「オンライン」と「授業」は分割されてしまっています。そこで、 「オンライン授業」という単語を辞書に登録してみます。

まず、「khcoder」のフォルダの中の \dep\chasen\dic というフォルダに行ってみましょう。 そうすると、.dic という拡張子をつけたファイルがずらっと表示されます。

f:id:digitalnagasaki:20210714171620p:plain どれでもいいらしいのですが、とりあえず今回は一般的な名詞を追加したいので Noun.dic をテキストエディタなどで開いてみましょう。

f:id:digitalnagasaki:20210714173738p:plain

後々の整理のためには、文字列順に並べた方がいいかもしれないのですが、 とりあえずお試しということで、一番最後に以下の行を追加してみています。

(品詞 (名詞 一般)) ((見出し語 (オンライン授業 3929))  (読み オンラインジュギョウ))

品詞情報と、見出し語、読みを、一定のフォーマットで追記すればいいようです。 「3929」という数値がちょっと謎ですが、これは単語の現れにくさを表す値で、 数が大きいほど現れにくいということを示しているようです。とりあえずここでは 3929としてみていますが、もっと小さくしてもよいかもしれません。

辞書ファイルへの単語の追加が終わったら、次は辞書の生成です。 一つ上のフォルダにあがると、 Makefile.bat というファイルがあります。

f:id:digitalnagasaki:20210714174446p:plain

これをダブルクリックすると、黒いダイアログが開いてしばらく文字が 表示され、それが終わると勝手にダイアログが閉じます。これで、辞書は完成です。

あとは、KHCoderに戻って、もう一度前処理をやり直してみます…と、以下のような感じになります。

f:id:digitalnagasaki:20210714174557p:plain

なんと、半分近くは「オンライン授業」でしたね。こういう風になると、分析結果もちょっと変わってきそうですね。

という感じで、実は割と簡単にできますので、よかったら試してみてください。

曼荼羅上の菩薩の名前をIIIFで確認できます+あつ森対応の件

SAT大正蔵図蔵DBがアップデートされました。今回のアップデートで、IIIFアノテーションは2万件を超えました。 青山学院大学の津田徹英先生率いるチームによる作業で、科学研究費補助金の研究成果公開促進費(データベース)の成果でもあります。

今回の目玉はいくつかありますが、一つは曼荼羅画像の各菩薩等へのアノテーションです。 「等」というのは、たとえば獅子さんとか蟹さんなどもいらっしゃいますので。

f:id:digitalnagasaki:20210714024332p:plain

それはともかく、一つの曼荼羅に含まれる300~450くらいの各菩薩等に アノテーションが付与されましたので、これは大変に素晴らしいことです。 曼荼羅だけではありませんが、いわゆる「別紙」として大正新脩大藏經図像編に 含まれるもののうち、アノテーションが多くついているものを以下に並べておきます。 それぞれクリックしてみていただいて、津田先生達のチームの素晴らしいお仕事を堪能してみてください。

さて、改めて本件について簡単に解説しておきますと、このサイトは、SAT大蔵経テキストデータベース研究会(代表:下田正弘東京大学教授) のプロジェクトの一環であり、この研究会がデジタル化の主な対象としてきた大正新脩大藏經の 図像編に含まれる仏教関連図像の部分を属性から検索できるようにするためのシステムです。 詳しくはこちらの本chapter 01を読んでいただけるとありがたいのですが、 Web画像相互運用の国際的な枠組みであるIIIF (International Image Interoperability Framework)に準拠したアノテーションを 簡単に入力するシステムを開発して入力チームが数年かけて入力し、それを現在見ていただいている公開システムに 載せて検索閲覧できるようにしている、というものです。ちなみにこのブログの著者のここでの役割は、世間に 出回っているフリーソフトを組み合わせて、Webの入力システムや公開システムを作ったり、そのための 予算を獲得する書類作成のお手伝いをしたり、プロジェクトの進捗管理のお手伝いをしたり、といったところで、基本的に便利屋さんです。

さて、このデータベースを検索すると意外といろいろなものが出てきまして、たとえば「蟹」で検索するとこういう感じです。

f:id:digitalnagasaki:20210714031607p:plain

さらに、「あつまれ動物の森」に貼り付けるためのQRコード生成をすることもできまして、「あ」というリンクをたどると、 以下のような画面に来ます。

f:id:digitalnagasaki:20210714031741p:plain

ここで、切り出したい箇所を改めて選び直して、

f:id:digitalnagasaki:20210714031836p:plain

タイル数を選んで…

f:id:digitalnagasaki:20210714031917p:plain

「画像をタイルに分割」ボタンを押すと以下のように分割されます。

f:id:digitalnagasaki:20210714032027p:plain

そうすると、以下のように、QRコードがずらっと表示されますので、あとはひたすら取り込んでいくだけです。

f:id:digitalnagasaki:20210714032118p:plain

しばらく前にこの機能の開発にちょっとハマってしまって、任天堂の独自画像の フォーマットを分析してみたり、ビットごとに書いたものをバイナリ変換するプログラムを 書いてみたりと、結局以下のようなものを作ってしまったりして、さらに、こういうものを 公開しても問題ないかと任天堂の法務部門におうかがいを立てたりしておりました。

f:id:digitalnagasaki:20210714032411p:plain

さて、それはともかく、もう少しこのSAT大正蔵図蔵DBの説明に戻りますと、このDBでは「タグ」による検索ができます。 「検索」ボタンの隣にある「タグ」ボタンをクリックすると、以下のようにタグリストが表示されます。

f:id:digitalnagasaki:20210714032730p:plain

そこで たとえば「炎髪」を選んでから「検索」ボタンをクリックしてみると…

f:id:digitalnagasaki:20210714032914p:plain

このように「炎髪」を持つ尊格がリストされます。ここで、気になる尊格の名前のところに あるチェックボックスにチェックを入れると、そのサムネイル画像が、画面右上の「カート」に リストされていきます。

f:id:digitalnagasaki:20210714033319p:plain

その後、そのカートにある「並べて表示」ボタンをクリックすると、以下のように、 それぞれの頁が並べて表示されます。

f:id:digitalnagasaki:20210714033407p:plain

あとは、各画像を適宜拡大して比較すればよいのですが、右側の頁は90度傾いています。 こういう場合、画面右上のボタンをクリックすると…

f:id:digitalnagasaki:20210714033828p:plain

以下のように、画像を回転させたり色を調整したりするツールバーが表示されますので、ここで 画像を回転させます。

f:id:digitalnagasaki:20210714034000p:plain

そして、サイズを適宜ズームしたりすると、以下のように画像の比較ができます。 各ウインドウ左上のハンバーガーアイコンをクリックすると、左側のアノテーションパネルが 隠れて、以下のようにすっきりと画像のみを閲覧できるようになっています。

f:id:digitalnagasaki:20210714034118p:plain

さて、今日のところは眠くなってしまったのでここまでです。まだまだびっくり機能が あるのですが、また次の機会にということで、よろしくお願いいたします。