2021-08-11

研究業績はなぜ論文でなければならないのか？パワポはダメ？

久々に、いかにもブログらしいという感じの何の役にも立たない記事を書きます。

研究業績はなぜ論文でなければならないのか？

ということは自分としては長年の謎の一つでしたが、では、パワポ資料が研究業績だと言われたらどうするだろうか、と考えてみることにしました。

パワポ資料、研究業績だと言っても悪くないような気がします。ファイルの形式にこだわって内容を見ないなんてナンセンスです！はい終了！

…と一瞬思ってしまいそうですが、しかし、これを研究業績として評価しようと思った場合に少し難しさが生じてくるような気がしてきました。

パワポ資料は自由です。テキストや矢印や図があちこちに登場して、それがなんとなく重なったりつながったりしながら何かをわかりやすく伝えようとしてきます。いらすと屋さんのかわいい絵がさらにそれを助けてくれることもあります。

では、目の前にある素敵なパワポ資料の内容が研究業績に値するかどうかを判断するとしたらどうでしょうか。パワポ資料は作るだけならすぐにできてしまいますし、正しいかどうかもよくわかりませんので、研究業績としては、やはり内容がまっとうであるかどうかを確認してみなければどうにもなりません。

とりあえず自分で内容をよくみてみることになりますが、専門的な内容であれば判断は難しいので、その筋の専門の人がチェックしてくれて可否を示してくれていたりすると安心です。学術雑誌だと「査読付き」雑誌で採録されていれば、それがある種の質保証になりますね。（とはいえ、あとで撤回されることもありますので査読付き雑誌に採録されていれば正しいということでもありませんが。）

さて、それでは、他の人が作ったパワポ資料を自分が評価するとなったとき、どうでしょうか。スライド内にちりばめられたそれらの矢印やテキストは、どういう意味を持っていると解釈できるでしょうか。矢印の形と意味について、作者と同じ意味づけを共有できているでしょうか。図の重なりがあったとして、そこに作者は包含関係の提示を意図しているでしょうか。それとも単なる偶然の重なり、あるいはデザイン上の問題でしょうか。イラスト屋さんのキャラの少し影の入った表情は研究成果の表現としてどのように位置づけられているのでしょうか。 …最終的に、そのスライドが説明しようとすることを正確に理解できていると確信できそうでしょうか。

というようなことを考え始めると、そもそもそういう記号の使い方を我々は共有していないのではないか、という気持ちになってきます。そういえば、フローチャートがあるじゃないか！国際標準だし！ISO 5807:1985をみんなで勉強！ UMLもあるぞ！！ISO/IEC 19505-2 だ！！

と思ってみても、そういえば、パワポ作者がそれをきちんと使ってくれているかどうかがはっきりしないとそもそも評価はできないぞ…ということになります。

そうすると、パワポ資料を作成するときに、記号の使い方として準拠した規格名を書いておけばいいということになりますが、そうすると「パワポ資料を研究業績に」という話が含意するものとはかなりかけ離れた感じの話になってしまいそうです。まずはいずれかの記号に関する規格を勉強するところから始めなければならなそうですね。

という風に考えてみると、論文ってなかなかよくできているものですね。基本的に、文章があって、必ず一方向に読んでいかなければならないことになっています。しかも、よくわからないことに、文章は一方向に読んでいくしかないにも関わらず多層的・多面的な概念や状況を描写することもできてしまいますね。というより、論文の文章を一意に理解できるということは、それだけ文法が子細に標準化・共通化されているということであり、そして非常に時間をかけてそれを用いた教育が施されているということでもあります。これはフローチャートやUMLの勉強どころの話ではなさそうな気もします。図が付されたりすることもありますが、多くの場合、図の読み方が文章で説明されます。数式は、順番は関係ないこともありますが、解釈の仕方が決まっているから特に問題ありませんね。

他人が表現する「成果」なるものが妥当なものかどうかを判断するためには、少なくとも書かれたものの内容を理解する必要があり、そのためにはその表現の仕方を書き手と読み手が共有していなければなりません。それを割と長い間継続できている論文という仕組みはなかなか素晴らしいものであり、しかし、そのために文法の標準化や教育というコストを社会全体としてかなり大きくかけてきているということにも圧倒されます。そのようなことを踏まえつつパワポ資料を研究業績としてきちんと扱おうと思ったら、そこで用いられる記号群やそれらの配置の仕方について、相当程度標準化するとともに、その内容を容易に共有できるようにトレーニングの仕組みも用意する必要がある…ということになるでしょうか。

いやはや、なかなか大変そうですね。

2021-08-04

IIIFでMirador3をMirador2のような便利さで使うために

IIIFでの画像ビューワの一方の雄であるMiradorは、現行バージョンのMirador3が出てしばらく経ちます。Mirador2の更新が止まってしまったことで、Mirador3に移行するところも徐々に増えてきているようにみえます。

しかしながら、Mirador3は、Mirador2の時代に最初からセットされていたいくつかの便利な機能がプラグインとして外付けされるようになってしまいました。ただ、このプラグインの組み込みが、以前のように簡単ではありません。いったんWebpack等でビルドしないといけないようで、普通にHTMLにJavascriptのライブラリを組み込む、というような一昔前の手軽さはもうありません。しかも、画像上にポップアップでアノテーションが表示されるという、あの便利な機能もなくなってしまって、TIFYのように、画像のアノテーションがかからないようになってしまい、それについてはプラグインも特に出ていませんでした。とどのつまり、 Mirador2のように使えるMirador3はないのか…と、やや困っていたのですが、その諸々の困った状況を解決したのが、こちらのビルド版です。

このビルド版の組み込み方や経緯については、こちらの頁などを見ていただければと思います。今、非常にいそがしくなってしまって細々ブログ記事を書いている時間がないのですが、それでも、このMirador3のビルド版は、IIIFに関わるみなさんになるべくはやく広くお伝えした方がよいかと思いまして、ちょっと大雑把な記事になってしまいましたが、ここにお知らせする次第です。みなさまのお役に立ちましたら幸いです。

2021-08-04

Mirador3をMirador2のような便利さで使うために

2021-07-23

般若心経をブラウザに読んでもらう（＋簡単Javascript解説）

プログラミング・レッスンデジタル人文学デジタル小技

もうすぐ50歳になるおじさんなので、新しい情報にはかなり疎くなっております。若者達から色々教えてもらうように心がけているのですが、もう記憶力が弱いのか、周囲があまりカバーしてないのか、はたまた、色々問題があって人に言うほどではないと思ってしまうのか、よくわかりませんが、いつのまにかWebブラウザは日本語どころか般若心経もダイレクトに読み上げてくれるようになってるみたいですね。ツィッタで、ブラウザが日本語読み上げもできるという話が流れてきたので、そういえばこれでお経を読んでもらえばマニ車並みの功徳が積めるかも…と思って作ってみたのがこちらです。

knagasaki.github.io

もちろん、ひらがなで読み方を与えてごにょごにょすると普通に読めてしまうのですが、大部分はそのままでも読めてしまうというのが少々感動するところです。

ソースコードは以下の頁でも確認できます。

github.com

ポイントはいくつかありますが、一番基本になるのは以下の箇所ですね。

         var ut = new SpeechSynthesisUtterance();
         if(e.getAttribute("data-r") == undefined){
           ut.text = e.textContent;
         }
         else{
           ut.text = e.getAttribute("data-r");
         }      
         ut.lang='ja-JP';
         ut.rate = 1.4;
         speechSynthesis.speak(ut);

般若心経のテキストは<span>で分割していて、共通のclassを与えることで、forEachで回して処理できるようにしています。その上で、一部の<span>にはdata-r classで読み方の情報をひらがなで与えています。（あまりに間違い方がひどかったので！）各要素のテキストは、.textContentでとれますので、あとは言語.langとレート.rateの値を与えて、さらにそれをspeechSynthesis.speak() に渡せば読んでくれます。

レートに関しては、こちらの頁に詳細が書いてあります。 0.1 から 10 の範囲で設定できるようで、デフォルトは1とのことです。

言語設定はこちらの頁に一応書いてあるのですが、具体的にどの言語に対応するかという情報は書いてないようですね。こちらをみるとBCP47準拠の書き方をしろ、ということになっていますので、あとはブラウザ依存ということになるのでしょうか？

こちらの頁には他にもいくつか設定できるプロパティがリストされているので、ちょっと試してみると面白そうです。

それから、上記の作例だと、読んでいるフレーズだけが赤くなります。このように色を変える方法には色々あるのですが、とりあえず「1. 読んでいるフレーズに色つきクラスを与える」「2. 読み終わったらそのフレーズから色つきクラスを外す」という風にしてみています。

「読んでいる」と「読み終わったら」というのは、こういうときは大体、イベントハンドラを利用することが多いです。こちらの頁（再掲）には「イベントハンドラー」という項目がありますので、ここを眺めてみると、SpeechSynthesisUtterance.onstart (en-US)、SpeechSynthesisUtterance.onend (en-US)、というのがあります。これですね。それぞれの頁の用例に沿って、クラスをつけたり外したりしてみます。

         ut.onstart = function(){
           e.classList.add('read-text');
         }
         ut.onend = function(){
           e.classList.remove('read-text');      
         }

もちろん、これができるということは、対応する画像があったらそれを頁のどこかに表示してみるとか、地図も出してみるとか、いろんなことができてしまいますね。これだけで、ああいうものが作れてしまうのですね。時代はどんどん進みますね。

2021-07-15

「楽譜のデジタル化」という課題

筆者は、2000年くらいからTEI (Text Encoding Initiative) ガイドラインの勉強を開始し、デジタルテキストを用いた研究の可能性と課題について、探求と実践を繰り返してきた。デジタル化とは、単にデジタルカメラで撮影してメタデータをつけるだけでなく、全文テキストを作成し、その構造を何らかの方法で機械可読な形で共有することも含んでおり、そのようにすることで、テキストを主に用いるタイプの人文学を大いに振興することができるとともに、テキストを扱う研究の伝統的な営みを未来につなげていくことができる。

一方で、「楽譜」のことは横目に見つつ、いつも気になっていた。音として再現できるようにデジタル化するのは重要だが、それだけでなく、たとえば中世写本において、テキストの内容そのものが重要であるだけでなくそこに含まれる多層的な内容もまた歴史や思想の様々な痕跡の探求に寄与するが故に構造的にデジタル化する手法がTEIガイドラインを通じて高度に発達したのと同様に、音に関する情報だけでなく、楽譜の実際の書かれ方、あるいは演奏家によるメモなど、楽譜に含まれる様々な要素も何らかの形でデジタル化された方が研究の可能性を高めるのではないか、と思っていたのだった。

そうこうしているうちに、いつのまにか、Music Enconding Initiativeガイドラインというものが発生し、主に北米やドイツ語圏で発達しはじめていることに気がついた。名前が想起させるとおり、TEIガイドラインと互換性があるようであり、TEIガイドラインのように、研究者の要望に応じて柔軟に様々な記載内容を構造化できるものであった。そのように、技術的なことはなんとなく想定できるのだが、しかし一方で、これが音楽研究者、楽譜を研究対象とする方々にとってどのような意義を持つのか、どのように有用なのか、ということはまったくわからずにいた。音楽や楽譜を研究しているわけではないので、それで困るというわけではないのだが、DHという枠組みで研究活動をしていると、デジタル音楽学を研究する海外の方々ともそれなりに付き合いができ、話を聞いていると、このような、楽譜をデジタル化するための重要と思われる手法の一つが日本であまり知られていないのはちょっとまずいのではないか、という気持ちもしてきており、それは徐々に強まってきていた。

そのようにしてとても気になってきていた状況において、このMEIガイドラインを楽譜研究とそのデジタル化の流れのなかに位置づけることを検討し、さらに論文まで書いてくださるという若手研究者が登場したのである。ここでは、デジタル学術編集版楽譜、という、文献学にも通じる概念とともに、関連するMusicXMLとの対比の中でMEIガイドラインを位置づけている。楽譜のデジタル化やその研究利用に関心をお持ちの方や、いずれそれに関わるかもしれないという人は、ぜひご覧になってみていただきたい。この論文は、以下のURLにて、機関リポジトリで無償公開されている。

関慎太朗「デジタル楽譜の類型化とデジタル楽譜文化を支えるフォーマットについての考察」

そして、できることなら、ご自身の取り組みのなかでこれがどう位置づけられるかを検討してみていただけたらと思っている。さらにわがままを言わせていただけば、それを、私信でも立ち話でもエッセイでも論文でもいいので、何らかの形で筆者にも伝えていただけると、なおありがたい。

2021-07-14

KHコーダで形態素解析用の辞書に単語を追加する方法

KHコーダを使っていると、形態素解析がうまくできない単語をどうにかしたくなることがあります。そんな時の対策の一つとして、形態素解析辞書に単語を追加するという方法があります。ググればなんてことのない作業なのですが、一応、調べて、やってみた、ということで、手順を間違えなければかなり簡単なので、ここでちょっとChasenでのケースをご紹介しておきます。

先日、大学生の授業に関するツィートを集めて分析してみたことがありました。そのときの6万件とちょっとのツィートで「オンライン」という単語を前処理してから見てみると、以下のようになりました。

f:id:digitalnagasaki:20210714171925p:plain

ここでは、抽出語で「オンライン」という単語を検索してみていますが、この文脈だと「オンライン授業」という単語が出てきてほしいところ、「オンライン」と、あとは謎の未知語しかでてきてませんので、おそらく「オンライン」と「授業」は分割されてしまっています。そこで、「オンライン授業」という単語を辞書に登録してみます。

まず、「khcoder」のフォルダの中の　\dep\chasen\dic　というフォルダに行ってみましょう。そうすると、.dic という拡張子をつけたファイルがずらっと表示されます。

f:id:digitalnagasaki:20210714171620p:plain どれでもいいらしいのですが、とりあえず今回は一般的な名詞を追加したいので Noun.dic をテキストエディタなどで開いてみましょう。

f:id:digitalnagasaki:20210714173738p:plain

後々の整理のためには、文字列順に並べた方がいいかもしれないのですが、とりあえずお試しということで、一番最後に以下の行を追加してみています。

(品詞 (名詞 一般)) ((見出し語 (オンライン授業 3929))  (読み オンラインジュギョウ))

品詞情報と、見出し語、読みを、一定のフォーマットで追記すればいいようです。「3929」という数値がちょっと謎ですが、これは単語の現れにくさを表す値で、数が大きいほど現れにくいということを示しているようです。とりあえずここでは 3929としてみていますが、もっと小さくしてもよいかもしれません。

辞書ファイルへの単語の追加が終わったら、次は辞書の生成です。一つ上のフォルダにあがると、 Makefile.bat というファイルがあります。

f:id:digitalnagasaki:20210714174446p:plain

これをダブルクリックすると、黒いダイアログが開いてしばらく文字が表示され、それが終わると勝手にダイアログが閉じます。これで、辞書は完成です。

あとは、KHCoderに戻って、もう一度前処理をやり直してみます…と、以下のような感じになります。

f:id:digitalnagasaki:20210714174557p:plain

なんと、半分近くは「オンライン授業」でしたね。こういう風になると、分析結果もちょっと変わってきそうですね。

という感じで、実は割と簡単にできますので、よかったら試してみてください。

2021-07-14

曼荼羅上の菩薩の名前をIIIFで確認できます＋あつ森対応の件

SAT大正蔵図蔵DBがアップデートされました。今回のアップデートで、IIIFアノテーションは2万件を超えました。青山学院大学の津田徹英先生率いるチームによる作業で、科学研究費補助金の研究成果公開促進費（データベース）の成果でもあります。

今回の目玉はいくつかありますが、一つは曼荼羅画像の各菩薩等へのアノテーションです。「等」というのは、たとえば獅子さんとか蟹さんなどもいらっしゃいますので。

f:id:digitalnagasaki:20210714024332p:plain

それはともかく、一つの曼荼羅に含まれる300～450くらいの各菩薩等にアノテーションが付与されましたので、これは大変に素晴らしいことです。曼荼羅だけではありませんが、いわゆる「別紙」として大正新脩大藏經図像編に含まれるもののうち、アノテーションが多くついているものを以下に並べておきます。それぞれクリックしてみていただいて、津田先生達のチームの素晴らしいお仕事を堪能してみてください。

さて、改めて本件について簡単に解説しておきますと、このサイトは、SAT大蔵経テキストデータベース研究会（代表：下田正弘東京大学教授）のプロジェクトの一環であり、この研究会がデジタル化の主な対象としてきた大正新脩大藏經の図像編に含まれる仏教関連図像の部分を属性から検索できるようにするためのシステムです。詳しくはこちらの本のchapter 01を読んでいただけるとありがたいのですが、 Web画像相互運用の国際的な枠組みであるIIIF (International Image Interoperability Framework)に準拠したアノテーションを簡単に入力するシステムを開発して入力チームが数年かけて入力し、それを現在見ていただいている公開システムに載せて検索閲覧できるようにしている、というものです。ちなみにこのブログの著者のここでの役割は、世間に出回っているフリーソフトを組み合わせて、Webの入力システムや公開システムを作ったり、そのための予算を獲得する書類作成のお手伝いをしたり、プロジェクトの進捗管理のお手伝いをしたり、といったところで、基本的に便利屋さんです。

さて、このデータベースを検索すると意外といろいろなものが出てきまして、たとえば「蟹」で検索するとこういう感じです。

f:id:digitalnagasaki:20210714031607p:plain

さらに、「あつまれ動物の森」に貼り付けるためのQRコード生成をすることもできまして、「あ」というリンクをたどると、以下のような画面に来ます。

f:id:digitalnagasaki:20210714031741p:plain

ここで、切り出したい箇所を改めて選び直して、

f:id:digitalnagasaki:20210714031836p:plain

タイル数を選んで…

f:id:digitalnagasaki:20210714031917p:plain

「画像をタイルに分割」ボタンを押すと以下のように分割されます。

f:id:digitalnagasaki:20210714032027p:plain

そうすると、以下のように、QRコードがずらっと表示されますので、あとはひたすら取り込んでいくだけです。

f:id:digitalnagasaki:20210714032118p:plain

しばらく前にこの機能の開発にちょっとハマってしまって、任天堂の独自画像のフォーマットを分析してみたり、ビットごとに書いたものをバイナリ変換するプログラムを書いてみたりと、結局以下のようなものを作ってしまったりして、さらに、こういうものを公開しても問題ないかと任天堂の法務部門におうかがいを立てたりしておりました。

f:id:digitalnagasaki:20210714032411p:plain