サンスクリット写本 データベースを作った話

最近、サンスクリット写本のデータベースを作りました。といっても、文字起こししたテキストデータベースではなくて、 デジタル画像のデータベースです。世間ではむしろ「デジタルアーカイブ」と言った方が通りがいいでしょうか。

一人で作ったわけではなくて、メタデータを作ってくださった人と、デジタル画像を撮影してくださった企業、 撮影された画像を検品してくださった人、撮影等の費用を捻出するために助成金を取ってくださった人、 その助成金を出してくださった組織、といった色々なステイクホルダーがあり、また、そういったデジタルに 関することとは別に、この資料を集めてくださった人たち、大事に整理・所蔵してきた図書館の方々、という、 現物に関するステイクホルダーの方々もおられます。

私の役割は、そういった方々の間を回って話をしたり色々作っていただいたりしながら、 現物のサンスクリット写本の「デジタル代理物」としての データベース(デジタルアーカイブ)のシステム部分を構築した、ということになります。 ここでは、そのシステム構築の部分の話をちょっと書いておきたいと思います。

まずはじめに

この種のものを構築するときは、仕様書を書いて外注するのが一般的ですが、そもそも元になった資料の性質やとれるメタデータ等々、一通りきちんと 把握していないと良い仕様書は書けません。最近、和本に関してはIIIFの普及もありかなり標準化されてきているので割と簡単にできるようになって いるようにも思えますが、今回はちょっと事情が異なるかもしれないですし、そもそも外注する費用がちょっともったいないということもあり(それより 若手に色々作業してもらう謝金に回した方がいいと思うので)、自分で構築することにしました。

利用するソフトウェア

データの件数としては、公開当初は一部のみを先行公開ということでしたので100件に満たない数で、しかし最終的には数千件のデータを扱うことになります。 数千件ですと、今のコンピューティングであれば単にテキストファイルを用意して検索するだけでもいいのですが、AND検索、OR検索、NOT検索等の 各種検索に加えてソートをしたり等々といった色々な検索機能を拡張していくことを考えますと、そういう機能が充実しているソフトウェアに データを組み込んでしまった方が構築や改良が圧倒的に楽です。そこで、最近この種のことに使っている全文検索ソフトウェアApache Solrを今回も採用する ことにしました。

検索システムへの格納

どういうデータをここに載せて検索させるか、ということについては、相当悩みました。というのは、メタデータはTEI P5の形式で用意されており、そこからいかにしてうまく 必要なデータを取り出して便利に使えるようにするか、ということでした。似たようなこと(=TEIに準拠したメタデータで古典籍の書誌情報検索を提供)をしているサイトとしては、ケンブリッジ大学デジタル図書館がありましたので、あまり凝りすぎずに、ここでできていることを目指せばいいか…というくらいに考えていたところでした。ただ、難しかったこととして、基本的に、写本の一つの束の中には複数の経典が含まれていることが多く、写本の束と含まれている経典のどちらを基準としてデータを構築すべきか、ということについてかなり悩み、ちょうど、Apache SolrでNested Child Document機能が使えるようになったと知ったのでそれもかなり色々試してみたのですが、結局、どうもうまくいかない点がいくつかあって(苦闘の記録)、今回は諦めて、中に含まれている経典の単位、いわゆる子書誌を単位にしたデータ格納をすることにしました。ですので、すべての子書誌が親書誌の情報をそれぞれ有していて、検索後、表示等をする際には親書誌情報単位でまとめて表示する、という関係になっています。

IIIF対応のための作業

画像は、Phase Oneの1億画素のデジタルバックで撮影したものを、JPEG圧縮をかけたPyramid TIFF画像に変換しました。これはTIFF画像の時点では1枚あたり300MBくらいありますが、JPEG圧縮を結構かけているのでPyramid TIFFでのファイルサイズは18Mバイトくらいです。これを、IIP Image Serverを使ってIIIF Image API経由で閲覧できるようにしました。(詳しいやり方はこちら)ついでに、サムネイル画像作成もしたのですが、これはvipsthumbnail というLinuxのシェルで使えるプログラムで繰り返し処理をしたらさくっと終わりました。

その後、IIIF Presentation APIです。IIIF Presentation APIを用意するということは、すなわち、IIIF Manifestファイルを作成するということです。これは、やはりTEI P5に準拠したデータをなるべくよい感じで取り出して、metadeta フィールドに全部押し込んでしまう、というのが基本的な戦略です。TEI準拠で書かれたメタデータファイルと画像のデータやThumbnailなども組み込むPythonのスクリプトを作成して、これはそんなに難しくなくできました。スクリプトのひな形はこちらですが、もう少し整理できたら、今回新たに作成したスクリプトも公開したいと思っております。

Webインターフェイスの作成

さて、検索とIIIF対応画像・IIIF Manifestファイルは作成できました。次はWebインターフェイスです。Webインターフェイスは、凝り出すときりがないので、なるべく簡素に、Bootstrapのテンプレートの中でよさそうなものを使って見ることにしました。「Album」というのがありましたので、それを使ってみることにしたのですが、ただ見せるだけでは面白くないのではないか…と思ってきてしまい、少しだけギミックを作り込んでしまいました。

ちょっとしたギミックの作り込み

f:id:digitalnagasaki:20211002173747p:plain

サムネイル画像の表示は、写本の束の単位で、トップページでも検索結果でもサムネイル画像が表示されるようにした上で、各サムネイル画像に代表的なIIIF Viewerで開くようにリンクアイコンを付けた上で、さらに、「Go」「Back」ボタンでそれぞれの写本のサムネイル画像を遷移できるようにして、さらに、写本の束のタイトルをクリックすると、表示されているサムネイル画像のページでIIIF Viewer (Mirador 3) が開く、という風にしました。また、IIIF Curation Platformでも、該当ページが開くようになっています。Universal Viewerはやりかたがよくわからなかったので諦め、TIFYは、やり方はわかったのですが n枚目という記述を独自形式で行わねばならず、ちょっと面倒だったのでやりませんでした。(でも30分も集中すればできると思いますが)。

というようなことで、このサムネイル画像表示にはちょっと凝ったのですが、なかなか楽しくて気に入っています。

反省点

ただ、反省として、この種のページを作るには、明らかにvue.jsのような仮想DOMを使った方が全体構成としては楽だったはずなのですが、vanilla JSがどうもよくわからないことがあって、しかしjQueryは何も考えずに普通に使えてしまうので、ついjQueryで書いてしまいました…。反省しつつ、vanillaの勉強をしなければと改めて心に誓ったのでした。

著書・共著書は業績であり続けられるのか

※書いていたら長くなってしまったので結論だけ先に書いておきますと、「学術出版社の皆さま、明示的に査読制度を作っていただくとよいと思います」という話を書いております。

研究業績とはどういうものか、ということについて、ずっと考えております。先日はパワポ資料が業績になるかどうか、ちょっと書いてみたところでした。もちろん、業績の「評価」は 評価する主体が基準を決めるものですから、自由に決めてよいのですし、パワポ資料を他のスタイルの研究発表と公平に 評価する基準を作れるのであれば何の問題もありません。個人的には、粗製濫造が可能であり記号の標準化も 不十分なパワポ資料を評価するのはすごく難しいだろうと思いますが、内容に踏み込まずに何がが作られていることさえ 確認できればよいとか、あるいは、altmetricsを評価基準に持込むというようなことであれば結構いけるかもしれないとも思います。

ということで、今日のテーマに入りたいのですが、著書・共著書を研究業績として評価するのはおかしいのではないか、 ということは、大学院生だった四半世紀前からずっと聞いていたことであり(これは自分が情報系の学会にも出入りしていた ためかもしれません)、昨今の人文系バッシングもあって耳にタコができている人も多いと思うのですが、最近とうとう、 神戸大学で以下のような話があったそうで、いよいよ本格的に来るのか…という気持ちになっているところです。

もちろん、著書・共著書の中には明らかに高度な研究成果と言えるものがたくさんあり、 それも、著書のような大部のものでなければ意味を成さないものが多くあるように思います。 いわゆる「理系」でもそういうものはあってもおかしくないのですが、なぜあまりないのかという のは後述します。

にも関わらず、研究業績として評価するのはおかしいと言われてしまうことがあるのは、 研究業績と言えないようなものもまとめてカウントされてしまう可能性が高く、 公平性を欠いてしまうからでしょう。研究成果そのものとは言えない 教科書や啓蒙書でも、分野が異なれば学術書なのかどうかよく判断できませんし、 また、そのようなタイプの本であっても、研究成果が多かれ少なかれ反映されて いるとしたら、研究成果ではないとは言い切れないでしょう。また、 科研費などの紐付きシンポジウムなどでの講演をまとめた論文集が 共著書として出版社から刊行されることもよくありますが、これなどは 査読がない上に、これまでの発表を改めてまとめなおしたようなものも よくみられます。啓蒙書的な位置づけとしてはあり得るかもしれませんが、 「理系」で査読者としのぎを削って新規性や信頼性を厳しく確認した上でようやく刊行された雑誌論文 (このあたりの「理系」の大変さと真摯さは、 3年間、情報処理学会の論文誌編集委員をやらせていただいたおかげで、ごく一端ではありましたがよくわかりました) と同じようにカウントしてよいのかどうかよくわかりません。もちろん、 インパクトファクターやh-indexなどを使えば差別化はできるわけですが、 とくに人文系の場合、そもそもインパクトファクターとかh-indexが 未整備なのでそういう判定もできません。

「理系」でもSTAP細胞論文に代表されるように、論文取り下げは 結構ありますし、とくに我国は論文取り下げ大国であり、「撤回論文数」世界ランキングでは 圧倒的な存在感を誇っているようですので、そんな「理系」の人たちに 色々言われたくない、とするのか、国民性とか政策上の問題だから仕方がない と考えるのか、色々な考え方はあるとは思いますが、後者だとしたら「文系」も チェックが行き届いていないだけで結構大変な状況になっているのかもしれません。 いずれにしても、学術研究に対して疑問符が突きつけられる状況になっていて、 とくに我国ではそれがちょっと大変な感じになっているようであることは確かです。 せめて、何か、研究成果が信頼できるものであるという第三者的な 指標のようなものとか、基準のようなものがあってほしいという気持ちは、 おそらく納税者の立場に立つと多くの人が持ってしまわざるを得ないのではないかと いう気がします。神戸大学の上記の決定の背景の一つにはそういうことも あるかもしれません。

そこでまた著書の話に戻ってきますが、ではなぜ著書である必要があるのか、と 言えば、一つの名前空間というか言語空間の中で厳密に定義された術語を 駆使しないと表現できない新知見があって、それは細切れの学術論文で 査読者ごとに基準が少しずつ異なる査読付きジャーナルでは実現できないこと なのです。では「理系」ではなぜそれがなくても回っているのかと言えば、 おそらく「理系」だと「文系」に比べて分野がかなり細切れになっていて 名前空間や言語空間をほぼ共有できるということと、そのような共有を 行うことが比較的容易であるということが理由としてあるのではないかと 思っております。おそらく、共著書の 中にもそういうものは相当数あるだろうと思います。 ですので、とくに人文系の場合、著書はやめられませんし、これが 研究業績として認められなくなったら人間文化の研究が非常に困難に なってしまい、日本であれば、日本文化は大幅に衰退すると思います。 著書・共著書を研究業績として認めないのは完全に悪手です。

しかしながら、著書・共著書を研究業績として認めようとすると、その 幅の広さのゆえに、どうしても難しいということになってしまいます。 実は現状ですと、これを解決するための一つの方法として、 出版助成をとれているかどうか、という基準があり得ます。特に科研費の 研究成果公開促進費は、 きちんと審査も行われますし、それに基づいて出た成果ということであれば業績として評価する価値が あるとみてもよさそうな気がします。ただ、この場合は、外形上は助成金を取れたということで あって、研究成果という形を取っているわけではありません。助成金を取れたことを 業績としてカウントしてしまうと、非常に殺伐とした世界が訪れてしまいますので、そこを詰めて、たとえば 「これに関してだけは助成金だけど研究業績として認める」というロジックを立てる必要があろうかと思います。 こういうときにいつも難しいのは、「ではこれは研究業績として認められるのではないか」という ことで似たような少し違うものが色々あがってくることなのですが、まあ、科研費の研究成果公開促進費のみに 限定するというようなルールを立てられるのであれば、なんとかなるのかもしれないとも思います。

ただ、これだけですと、出版助成がとれてないものはすべて研究業績として認められないという ことにもなってしまいかねません。今回の問題意識は、冒頭の神戸大学の件にあるのです。 そこで考えられる一つの方策は、著書・共著書に対しても査読を導入することです。 なんだ、さんざんもったいをつけておいてそんな話か…と思われるかもしれませんので 冒頭にも書いてしまいましたが、とにかく、学術的な価値がある ものとして出版されたものとそうでないものとを明白に区別できるようにするには、 査読体制を作って、査読編集委員会がお墨付きを出す、という形にするのが もっとも早道なのではないかという気がします。それをどこが担うのか、と言えば、 学会等で立てるよりは、学術出版社側、それも、個々の出版社というよりは、 複数の出版社で共同で立てるのがよいのではないかという気がします。外野からみている 分には、出版梓会などはこういうものの母体としてよさそうにも見えます。 委員会の人選については、有力な編集者の方々だけでなく、特に文系だと、学術出版社からお願いされればそれくらいなら受けてもいい、という 研究者も結構おられるのではないかと思いますし、うまいこと、広く信頼される研究者や編集者の 方々から成る委員会を立てて、そこからさらに匿名で外部に査読・審査をお願いする、 ということでよいのではないかという気がします。

すでに個別にはやっている出版社もあるように仄聞しておりますが、そうは思えない学術出版社も まだ多く、しかし、このあたりでやっておかないと、 今度の国立大学中期計画あたりで神戸大学の状況次第では他も色々変わっていってしまう のではないかという気がしております。 最近の、一般社団法人日本私立大学連盟による「大学設置基準の要件から図書館を外す」話ともリンクしてしまいそう な気がしますので、それを押し返すという意味でも重要ではないかと 思っております。

もちろん、世界大学ランキングでのパラメータチューニングのようなことには 全然役に立ちませんので、そういう話になってしまうとやはりちょっと弱いのですが、 それは日本語の査読付き論文誌でも同じですので、せめて、査読付き論文と同じ くらいの土俵に持って行けるようにするとよいのではなかろうか、ということです。

編集委員会をたてた後、遡及して評価するということもできるといいかもしれないのですが、 それはちょっと仕事量的に無理があるかもしれず、体制構築以前のものをどう評価するか というのはちょっと検討の必要があろうかと思います。ただ、その議論に引っ張られて 話が始まるのが遅くなったりするのもよくないだろうとも思います。

ちなみに、学術出版社が査読を行うという話は全然無理な話ではなくて、海外ではそういう ことが割と広く行われていると仄聞したことがあり、また、個人的にも、ロンドンの某出版社から 頼まれて共著書の査読をして薄謝ももらったことがあります。提供した労働力にはとても見合わない謝礼でしたが、 関心ある分野についての学術書をよりよいものにすることを支援できた上にお金ももらえる ということであれば、まあいいかなと思ったのでした。

長い割に雑な話になってしまって恐縮ですが、ということで、学術出版社の方々や、 関連する研究者のみなさまに、ご検討をお願いできればと思うところです。

Apache Solr8のnested documentの検索の仕方

表題の件について、結構苦労して色々なパラメータの使い方を理解して、一人で暖めておくのはもったいないのでメモ。

  • Solr8では2段以上(上限不明)のデータのネストが可能。
  • スキーマの作り方は今のところ十分に理解できていないが、dynamicFieldを用いることで基本的なスキーマを用いた自動的なindexingが可能。
  • dynamicFieldは、以下のような感じでフィールド名の末尾に記号をつける。たとえばtitleだったらtitle_s という風に。このリストは server/solr/configsets/_default/conf/managed-schema で得られる。
    <dynamicField name="*_i"  type="pint"    indexed="true"  stored="true"/>
    <dynamicField name="*_is" type="pints"    indexed="true"  stored="true"/>
    <dynamicField name="*_s"  type="string"  indexed="true"  stored="true" />
    <dynamicField name="*_ss" type="strings"  indexed="true"  stored="true"/>
    <dynamicField name="*_l"  type="plong"   indexed="true"  stored="true"/>
    <dynamicField name="*_ls" type="plongs"   indexed="true"  stored="true"/>
    <dynamicField name="*_t" type="text_general" indexed="true" stored="true" multiValued="false"/>
    <dynamicField name="*_txt" type="text_general" indexed="true" stored="true"/>
    <dynamicField name="*_b"  type="boolean" indexed="true" stored="true"/>
    <dynamicField name="*_bs" type="booleans" indexed="true" stored="true"/>
    <dynamicField name="*_f"  type="pfloat"  indexed="true"  stored="true"/>
    <dynamicField name="*_fs" type="pfloats"  indexed="true"  stored="true"/>
    <dynamicField name="*_d"  type="pdouble" indexed="true"  stored="true"/>
    <dynamicField name="*_ds" type="pdoubles" indexed="true"  stored="true"/>
    <dynamicField name="random_*" type="random"/>
    <dynamicField name="ignored_*" type="ignored"/>

次に、親子関係を使ったクエリをいくつか調べてみたので以下に並べておく。 なお、親子ともにhierarchy_sというフィールドを作成してあり、親にはparent、子にはchildの値を与えて区別している。

子を検索してその親だけを表示(hierarchy_s:parentは親、title_tは子)
curl 'http://localhost:8984/solr/skrt/select' -d 'omitHeader=true' -d 'q={!parent which="hierarchy_s:parent"}title_t:pra*&wt=json'

親を検索してその子だけを表示(condition_tは親)
curl 'http://localhost:8984/solr/skrt/select' -d 'omitHeader=true' -d 'q={!child of="*:* -_nest_path_:*"}condition_t:*pagination*&wt=json&rows=40'

親を検索してその子のタイトルだけを表示(hierarchy_s:parentは親、condition_tは子)
curl 'http://localhost:8984/solr/skrt/select' -d 'omitHeader=true' -d 'q={!child of="hierarchy_s:parent"}condition_t:*miss*&wt=json&rows=40&fl=title_t' 

親を検索して親も子も一緒に表示(msIdentifier-settlement_sは親)
curl 'http://localhost:8984/solr/skrt/select' -d 'omitHeader=true' -d 'q=msIdentifier-settlement_s:Tokyo&fl=*,[child]&wt=json&rows=40'

親を検索してから子だけを絞り込み表示。親は全部表示される(hierarchy_s:parentは親、title_tは子)
curl 'http://localhost:8984/solr/skrt/select' -d 'omitHeader=true' -d 'q=hierarchy_s:parent&wt=json&fl=*,[child childFilter=title_t:pra*]'

子を検索してその親と子を両方表示(hierarchy_s:parentは親、title_tは子)
curl 'http://localhost:8984/solr/skrt/select' -d 'omitHeader=true' -d 'q={!parent which="hierarchy_s:parent"}title_t:pra*&wt=json&fl=iiifmanifesturi_s,id,msItems,title_t,[child]&rows=100'

人文学研究者必読の第六期科学技術・イノベーション基本計画のポイントを確認してみる

科学技術基本法は、しばらく前までは「科学技術(人文科学のみに係るものを除く。以下同じ。)」という 文言で人文学を除外していましたが、令和3年4月、「科学技術・イノベーション基本法」に変更されて 施行され、これにともない、人文・社会科学が含まれることになりました。今後は、人文学に関しても政策的な 研究事業のある部分はこれに沿って進められることになるようです。いわば、科学研究一般の一部として 学術政策により強く組み込まれることになるのだろうと思っております。

では、人文学はどういう風に組み込まれたのでしょうか? ここでは、筆者がネットで調べられる範囲で、この基本計画にどのように人文学が組み込まれているのかを 関連資料とともにみてみましょう。

内閣府の 第6期科学技術・イノベーション基本計画 の頁にこれまでの経緯や、今回の法改正を受けた基本計画の文書(PDF)などが掲載されています。 全84頁のこのPDFファイルを「人文」で検索すると45件あるようです。

「人文」という語は文書の各所にちりばめられていますが、実施される計画を具体的に まとめているのは56頁のようです。「⑦ ⼈⽂・社会科学の振興と総合知の創出 」として 7項目が挙げられています。とりあえず一つずつみてみましょう。

第一項目

(1) ⼈⽂・社会科学分野の学術研究を⽀える⼤学の枠を超えた共同利⽤・共同研究体制の強化・充実を図る とともに、科研費等による内在的動機に基づく⼈⽂・社会科学研究の推進により、多層的・多⾓的な知の 蓄積を図る。

共同利用・共同研究と言えば、「全国の研究者に共同利用・共同研究の場を提供する、日本で4つの中核的研究拠点です。」 というキャッチフレーズでおなじみの、大学共同利用機関法人が思い浮かびます。人文系だと、 人間文化研究機構傘下の6機関( 国立歴史民俗博物館国文学研究資料館国立国語研究所国際日本文化研究センター総合地球環境学研究所国立民族学博物館 )があります。これに加えて、国際共同利用・共同研究拠点や共同利用・共同研究拠点というのもあって、 人文・社会科学系では、前者には日本文化資源デジタル・アーカイブ研究拠点として 立命館大学アート・リサーチセンター、 後者には、 北海道大学スラブ・ユーラシア研究センター(スラブ・ユーラシア地域研究にかかわる拠点) 東京大学史料編纂所(日本史史料の研究資源化に関する研究拠点) 東京大学社会科学研究所附属社会調査・データアーカイブ研究センター(社会調査・データアーカイブ共同利用・共同研究拠点) 東京外国語大学アジア・アフリカ言語文化研究所(アジア・アフリカの言語文化に関する国際的研究拠点) 一橋大学経済研究所(「日本及び世界経済の高度実証分析」拠点) 京都大学人文科学研究所(人文学諸領域の複合的共同研究国際拠点) 京都大学経済研究所(先端経済理論の国際的共同研究拠点) 京都大学東南アジア地域研究研究所(地域情報資源の共有化と相関型地域研究の推進拠点) 京都大学東南アジア地域研究研究所(東南アジア研究の国際共同研究拠点) 大阪大学社会経済研究所(行動経済学研究拠点) 大阪市立大学都市研究プラザ(先端的都市研究拠点)慶應義塾大学パネルデータ設計・解析センター(パネル調査共同研究拠点) 法政大学野上記念法政大学能楽研究所(能楽の国際・学際的研究拠点) 京都芸術大学舞台芸術研究センター(舞台芸術作品の創造・受容のための領域横断的・実践的研究拠点) 早稲田大学坪内博士記念演劇博物館(演劇映像学連携研究拠点) 大阪商業大学JGSS研究センター(日本版総合的社会調査共同研究拠点) 関西大学ソシオネットワーク戦略研究機構(ソシオネットワーク戦略研究拠点) が選定されています。 基本的に外野なのでよくわかりませんが、体制の強化・充実を図るとのことですので、これらの拠点機関に対して何らかの措置が行われることを期待したいところです。

一方、「科研費等による内在的動機に基づく⼈⽂・社会科学研究の推進により多層的・多⾓的な知の蓄積を図る。 」 という点については、つまり、科研費等で自由に研究課題を設定することをこの基本計画で追認してくれている、という風に 捉えれば良いのでしょうかね。ただ、最後まで読むと、内在的動機に期待されつつ、多層的・多⾓的な知の蓄積を図るということに なっていますので、ここは研究者側が自発的に「多層的・多⾓的な知の蓄積」もしなければならない、ということでしょうか。 あまり深読みすべきところではないかもしれませんが、何かご存じの方がおられましたらぜひご教示ください。

第二項目

(2) 未来社会が直⾯するであろう諸問題に関し、⼈⽂・社会科学系研究者が中⼼となって研究課題に取り組む 研究⽀援の仕組みを 2021 年度中に創設し推進する。その際、若⼿研究者の活躍が促進されるような措置 をあわせて検討する。

これは抽象的すぎて何のことかよくわからないのですが、2021年度中に創設し推進する、と書いてあり、しかも 研究支援、と書いてありますので、もう始まっているものではないかと想像して学振のサイトなどを みていると、

学術知共創プログラム・課題設定による先導的人文学・社会科学研究推進事業

というのを発見しました。この説明を見てみると、以下のように書いてあります。

未来社会が直面するであろう諸問題に係る有意義な応答を社会に提示することを目指す研究テーマを掲げ、人文学・社会科学に固有の本質的・根源的な問いを追求する研究を推進することで、その解決に資する研究成果の創出を目指す。

「未来社会が直面するであろう諸問題」というあたりが同じですし、2021年度に始まったとのことですので、おそらくこれが該当するということで よさそうな気がします。この事業の現状については、文部科学省の科学技術・学術審議会学術分科会 人文学・社会科学特別委員会(第6回)会議資料にて盛山和夫先生が作成された資料(PDF)や、この時の議事録を見ると6月時点での状況はわかります。9月下旬に採択結果通知がいくようですね。 どういう事業が採択されるか、要注目ですね。また、この事業は、 同特別委員会が今年の8月に公表した「「総合知」の創出・活用に向けた人文学・社会科学振興の取組方針(PDF)」でも採り上げられていますので、こちらもご覧いただくとよいかと思います。

第三項目

(3) ⼈⽂・社会科学の研究データの共有・利活⽤を促進するデータプラットフォームについて、2022 年度ま でに我が国における⼈⽂・社会科学分野の研究データを⼀元的に検索できるシステム等の基盤を整備する とともに、それらの進捗等を踏まえた 2023 年度以降の⽅向性を定め、その⽅針に基づき⼈⽂・社会科学 のデータプラットフォームの更なる強化に取り組む。また、研究データの管理・利活⽤機能など、図書館 のデジタル転換等を通じた⽀援機能の強化を⾏うために、2022 年度までに、その⽅向性を定める。

これは、日本学術振興会で進められている人文学・社会科学系データインフラストラクチャー構築推進事業 を指していると思われます。こちらの進捗状況も、上記の委員会で同時に報告と議論がなされたようです。この時の委員会の 会議資料はこちらで一覧できますが、この中で 「人文学・社会科学データインフラストラクチャー構築推進事業:背景、取組、成果および課題 (PDF)」という資料が比較的最近の状況を 報告しています。なお、このデータプラットフォームは、「人文学・社会科学総合データカタログ」として すでに稼働しています。まだ人文学のデータは入っていませんが、社会科学の量的調査データに関する横断検索が できるようです。こちらは、今後さらなる強化が行われる見通しのようです。 それから、この事業も、 同特別委員会が今年の8月に公表した「「総合知」の創出・活用に向けた人文学・社会科学振興の取組方針(PDF)」で採り上げられていますので、こちらもご覧いただくとよいかと思います。

一方、「また、」と言って似たような話が続きますが、「研究データの管理・利活⽤機能など、 図書館のデジタル転換等を通じた⽀援機能の強化を⾏うために、2022 年度までに、その⽅向性を定める。」 と書かれているところ、ここだけみるとすべての分野についての話のように見えますが、 人文・社会科学の項目に書かれていることですのでそこに特化された話なのでしょうか。 研究データの扱いを図書館でもっと頑張ってくれるようになる、ように読めるのですが、 図書館方面でこういった「支援機能の強化」の話が議論されているのかもしれませんね。 あるいは、国立情報学研究所(NII)で現在進められているJAIRO CloudやGakunin RDM(研究データ管理基盤)、Weko3(公開基盤)等々のオープンサイエンス基盤研究センターによる 一連の新しい学術情報流通サービスを指しているのでしょうか?研究データ利活用と言えば、 最近リリースされたCiNii Researchで研究データの検索も一括でできるようになっていますね。

ただ、2022年度までに、ということで、もし人文・社会科学限定の話なのだったとしたら、そろそろ こちらの方にも話が聞こえてきてほしいところです。なお、このテーマに関しては、 研究データ利活用協議会というコミュニティがありますが、 この件とどれくらい関係しているのかはよくわかりません…(直接には関係なさそうな気がします)。

第四項目

(4)「総合知」の創出・活⽤を促進するため、公募型の戦略研究の事業においては、2021 年度から、⼈⽂・ 社会科学を含めた「総合知」の活⽤を主眼とした⽬標設定を積極的に検討し、研究を推進する。また、「総 合知」の創出の積極的な推進に向けて、世界最先端の国際的研究拠点において、⾼次の分野融合による「総 合知」の創出も構想の対象に含むこととする。

今回の基本計画では「総合知」という言葉が頻出し、そこで人文・社会科学との連携への期待が語られるのですが、 令和四年度の文部科学省概算要求を眺めていると、 「総合知」という言葉があちこちに見られ、そこにはしばしば「人文・社会科学」という言葉も登場しています。 たとえば、

災害状況の迅速な把握と、人文・社会科学の知見を活用した災害対応の判断支援を統合的 に 取り扱うため、人文・ 社会科学の「知」 と自 然科学の「知」が融合した 「総合知」による研究開発アプローチ を採用。

 

我が国が目指す未来社会( Society 5.0 )の実現に向け、 科学技術リテラシーやリスクリテラシーの取組 、 科学コミュニケーターの能動的な活動を踏 まえた科学館や博物館等における ⼀ 般社会の意見収集や市民による政策過程への参画の取組 、 人文・社会科学と自然科学の融合による「総合知」を活用して行う課題解決に向けた対話・協働活動の取組 など、多様な主体の参画による知の共創と多層的な科学技術コミュニケーションの強化 が必要。

といった具合です。人文・社会科学と言ってもこういった事柄に直接関係するような研究分野・研究テーマはそれほど多くないと 思いますが、むしろ、自分の分野やテーマがどのように関係し得るか、思考実験をしてみると面白いかもしれませんね。

第五項目

(5) 関係省庁の政策課題を踏まえ、⼈⽂・社会科学分野の研究者と⾏政官が政策研究・分析を協働して⾏う取 組を 2021 年度から更に強化する。また、未来社会を⾒据え、⼈⽂・社会科学系の研究者が、社会の様々 なステークホルダーとともに、総合知により取り組むべき課題を共創する取組を⽀援する。こうした取組 を通じて、社会の諸問題解決に挑戦する⼈的ネットワークを強化する。

この件については、令和4年度の文科省概算要求で「科学技術イノベーション政策における「政策のための科学」の推進( SciREX事業)(PDF)」 というのがあって本年度からやっているようですので、前半はこれのことでよさそうな気がします。

後半は、上記の共創知プログラムの話でしょうか?あるいは、令和4年度の文科省概算要求でも こういったフレーズが

「大学の力を結集した、地域の脱炭素化加速のための基盤研究開発 (PDF)」 「共創の場形成支援:共創の場形成支援プログラム・地域共創分野 (PDF)」 「未来共創推進事業 (PDF)」 「戦略的創造研究推進事業(社会技術研究開発) (PDF)」

あたりに登場しますので、こういったものにコンセプトがちりばめられていると考えておけばよいのでしょうか。

第六項目

(6) ⼈⽂・社会科学の知と⾃然科学の知の融合による⼈間や社会の総合的理解と課題解決に貢献する「総合 知」に関して、基本的な考え⽅や、戦略的に推進する⽅策について 2021 年度中に取りまとめる。あわせ て、⼈⽂・社会科学や総合知に関連する指標について 2022 年度までに検討を⾏い、2023 年度以降モニタ リングを実施する。

こちらについても、前項であげた「戦略的創造研究推進事業(社会技術研究開発)」などはかなり あてはまりそうです。

また、令和4年度の文科省概算要求には「データ駆動型人文学研究先導事業 ~「総合知」創出に向けたデジタル・ヒューマニティーズの強化~ (PDF)」というものもあり、これは、 ここまでみてきたいくつかの「データ」や「総合知」の話を反映したものでもありそうですが、 総合知をもたらすための方策の一つとして期待されているようです。これについては 科学技術・学術審議会学術分科会の人文学・社会科学特別委員会(第7回)会議にてヒアリングが 行われ、筆者も少し話題提供しました。こちらもやはり、配布資料一覧議事録が公開されています。そして、 この件についても 同特別委員会が今年の8月に公表した「「総合知」の創出・活用に向けた人文学・社会科学振興の取組方針(PDF)」でも採り上げられています。時系列でみると、この方針を受けて概算要求が行われたという形になっているように思われます。

さて、この項目で気になるのは実は後半です。というより、今回の基本計画で一番気になっているのは ここです。 「⼈⽂・社会科学や総合知に関連する指標」が2022 年度までに検討されて2023 年度以降には モニタリングが始まってしまうようです。「指標」って何に関する指標でしょうか。研究評価指標の ことではないかと想像しているのですが、そうだとしたら色々確認したいこともあるのですが、 これに対応する動向がどの件なのかよくわからないというところで 止まっております。どなたかご存じの方がおられましたらぜひご教示ください。

人文社会科学の研究評価については、神戸大学でこういう話があるようで、

全体としてどこに向かおうとしているのかが非常に気になっているところです。

第七項目

(7) 上述の「総合知」に関する⽅策も踏まえ、社会のニーズに沿ったキャリアパスの開拓を進めつつ、⼤学 院教育改⾰を通じた⼈⽂・社会科学系の⼈材育成の促進策を検討し、2022 年度までに、その⽅向性を定 める。

こちらは大学院教育改革ですね。2022年度までに方向性が決まるとのことですので、 来年度から始めるのか、来年度にやり方を決めて再来年度からということなのかよくわかりませんが、 これは今までにも繰り返し取り組まれてきた普遍的なテーマのように思われます。来年度概算要求にも 「科学技術イノベーション創出に向けた大学フェローシップ創設事業 (PDF)」 というのが入っています。ただ、ここでは「総合知」という言葉が出てこないので、再来年度概算要求で「総合知」も含むさらなる促進策が出てくるのかもしれませんね。

ということで、恐縮ながらいくつかわからない点もありましたが、全体として、人文学と理系分野、そして政策との距離が少し縮まっていくような感じです。また、 人文学への展開にあたっては、文科省 科学技術・学術審議会学術分科会の人文学・社会科学特別委員会も一定の役割を果たしているように思われます。

この状況をうまく活用して若手育成などにつなげられるとよいのではないかと思うのですが、一方で、長い時間をかけて積み上げていくタイプの 王道的な人文学研究をこういった流れのなかにどう位置づけていくのか、というのは重要な課題になっていきそうです。

翻訳は研究業績にならないの?

少し前に、パワポ資料は研究業績にならないのか、という記事を書きましたが、 最近、以下のツィートを拝見しましたので、今度は、翻訳はどうなのか、ということについて少し思うところを書いてみたいと思います。

まず、細かいところに突っ込むようですが、しかしこの種の事柄を検討する上で大事なポイントだと思うので 抑えておきたいのが、 「研究者の業績」を「カウント」するということ自体が、少なくともここで問題になりそうな 人文系においては割と最近のことだったのではないか、という点です。そして、そもそも 「カウント」、つまり、個々の業績に点数をつけたり業績の種類に応じて重み付けをしたりする という業績評価スタイルが人文系に導入されたのは割と最近、この10~20年くらいのことで、 未だにそのようにしていないところも結構あるのではないか、ということです。 もう少し言い方を変えると、かつては翻訳が業績として「カウント」されずにもっと 大まかな質的評価が行われていて、理工系のようなカウントシステムが導入されたときには 理工系の論理で翻訳はカウントから外されてしまい、結局のところ、翻訳が「カウント」 されたことはなかったのではないか、というようなことを漠然と思ったのでした。 研究業績評価≒人事評価に関することはあんまり公表されてなくて、自分が関わったところと、 それに加えてたまに公表したりしているところくらいしかわからなくて、あとは都市伝説めいた 話になってしまうことが多いように思うのですが、具体的な調査が行われたこともあるようですので ちょっとみてみましょう。

三菱総研によるアンケート結果では

たとえば、文科省の平成26年度研究開発評価推進調査委託事業の 報告書が、五輪前のコロナ感染者数予測で話題になった株式会社三菱総合研究所から 出ておりまして、以下のPDFで読めるようになっています。

https://www.mext.go.jp/component/a_menu/science/detail/__icsFiles/afieldfile/2015/05/20/1357995_01.pdf

平成27年度行政事業レビュー によればこの調査報告は840万円で実施されたようです。

内容としては大学研究機関にアンケートを行ったものをまとめたようで、 個人業績評価の実態に関するアンケート調査ということで 大学関係786件、研究開発型の独立行政法人33件に送付して、それぞれ575件、33件の回答を得たようです。 回収率はそれぞれ、73%、64%です。

そうしますと、平成26年度の時点で、なんと個人業績評価を実施していない機関が49%、ほぼ半分のようです。 アンケートに回答していない機関がどうしているのか気になるところですが、このアンケートだけを 見ると、業績業績と詰めてくるところは、数としては半分くらいしかないということになるのでしょうか…? アンケートに答えた人がどういう立場の人で、 その人はきちんと学内の事情を把握していたのかどうか、ということもちょっと気になるところではあります。 いずれにせよ、業績評価の影響を考えるなら、それぞれの所属研究者数 もみておきたいところではあります。

冒頭から少し気になるところもありつつ、 「翻訳」が評価されるかどうかについて確認したいので、とりあえず 「評価項目」をみてみます。 p. 34(PDFだと42頁)にリストされているのでみてみますと…いわゆる「研究」にカウント できそうな項目としては以下のようになっています。

  • 成果の学術的価値
  • 成果がもたらす社会・経済・文化的な効果の価値
  • 論文・総説
  • 論文掲載誌のインパクトファクター(IF)
  • 論文・総説の被引用
  • 報告書の執筆
  • 専門書籍の編集、執筆
  • 学会発表・講演
  • 学会活動(役職等)
  • 特許・実用新案の出願・登録・ライセンシング

「翻訳」はもしかしたら「成果の学術的価値」「成果がもたらす社会・経済・文化的な効果の価値」 あたりに入れることは可能なのでしょうか?アンケート項目そのものがどうだったかわからないので、 項目に「翻訳等」に入っていたのだろうか、あるいは、入ってなくて(その可能性がこの場合 大きいような気がしますが)、もし入っていたらどうだったのだろうか、と色々想像してしまうところです。 とりあえず、調査する側の視野に研究業績としての「翻訳」は入っていなかった可能性も あるというところにとどめておきましょうか。

ということで、

このアンケートだけだと、数字としては、個人研究業績を問題にするところは 半分くらいしかないので、海外の学術書的な本の翻訳が業績になるかどうかという のはそれほど関係ないのかもしれない、という可能性も出てきますが、 大規模機関も小規模機関も1とカウントされてしまうようなので、小規模機関 がたくさんあって、評価対象の研究者数で見てみた場合にはまったく 違う景色が見える可能性もあります。

一方、アンケートとしては、翻訳を研究業績にカウントするところは 一つもないということになりますが、そもそもアンケート項目に入っていなかった 可能性もありますので、そうすると翻訳が業績として評価されるのかどうかの 調査はなされていないということになる可能性もあります。

結局、現状はあまりよくわからない…というのがとりあえずの印象です。

リサーチマップでの「翻訳」の扱い

別な観点から見てみると、近年、業績を掲載しておくデータベースとして国内でデファクト標準の 地位を固めつつあるリサーチマップの入力ガイドでは、 以下のように、翻訳も掲載できるようになっています。

f:id:digitalnagasaki:20210821220130p:plain
リサーチマップマニュアル

リサーチマップは、とにかく何でも記載できるようにしておいて、評価の対象にするかどうかは評価する側が考えるという スタンスのようですので、この点は好感が持てます。個人的には「単訳」という表現がちょっと見慣れないですが、 これは私の世間が狭いためかもしれないですね?

翻訳を業績にして大丈夫?

さて、そのようなことで、翻訳が業績にならないかというと、必ずしもそうではないようだ、ということまでは 言えるように思えてきました。もちろん、査読付き国際ジャーナルや、分野の中で誰もが認める日本語学術誌に 掲載された論文に比べたら、業績としてカウントされるかどうかは微妙かもしれませんが、それなりに 評価される場合もありそうです。

さて、では翻訳を業績にして普通にカウントして問題ないのか、ということ、次に気になるのが、 業績を増やすために機械翻訳にちょっと手をいれただけのようなものがばんばん量産される事態に 陥るのではないかという懸念です。そのあたりは、一流の研究機関の一流の研究者の方々の間では まったく問題にならないわけですが、研究者・大学教員は一流の人たちだけで成り立つものでは ないので、一流でない人たちをいかにしてうまく評価して、適切に学術に貢献してもらいつつ 自分の研究業績もあげてもらい、さらに自分の組織の維持発展のための仕事に従事してもらうか、 そのための制度設計をどのように行うか、ということはとても重要です。 ここで、翻訳は業績にカウントしてよい、という話になると、 もちろん、一流の人たちは一流の翻訳書を刊行してくださるので何の問題も ないのですが、そうでない人たちは、とりあえずルールの範囲でなるべく高い評価を 得たいと思う人も少なくないですし、それは、子供がいて家のローンもあるので 給料を少しでもあげたい、とか、いい年なので管理職系の仕事が多く回ってきて 勤務時間内は研究時間がとれないのに介護が必要な親のために私的な時間を研究に 使えなくなってしまった、というような切実な状況においては、それでは 翻訳書をなるべく省力化して出しますか、ということになってしまっても仕方がないこと ではないかと思ったりもします。結果として、粗製濫造になってしまって、 翻訳を業績カウントすることの問題がよりクローズアップされてしまって今より 状況が悪くなるかもしれないとも思ってします。

翻訳を業績としてカウントするルールは可能か?

しかしながら、よい翻訳を業績としてカウントすることは、できるなら実現した方がよいに 決まっています。とくに人文系の学術書の翻訳は、それまで日本語文化圏にはなかった概念を 日本語の概念体系に移し替えていく仕事になります。時折、新しい言葉が定義され登場する こともありますが、それも多くの場合は、日本語の 概念体系の中にはどうしても収まりきらず、新たな言葉と定義を与えて日本語文化の中に それを定着させるべく、熟慮に熟慮を重ねた上で、慎重に行われるものです。 これを、きちんとやろうとすると非常にアカデミックかつクリエイティブな仕事になります。 このあたりは、理工系とはかなり事情が異なりますし、これが学術的な仕事として認められない となると、さすがにちょっとまずいのではないかという気がします。

そこら辺をなんとかしつつうまく話を前に進めるためには、「こういう翻訳(書)が これくらいのレベルで翻訳されていれば業績とカウントすべき」 というような基準が示されているとよいのではないかとも 思います。基準そのものは、評価する側で作れればそれがベストだと思いますが、 分野がずれるとよくわからなくなってしまうので、たとえば学会等で「この翻訳書は 学術的意義が高い」などというようなリストを毎年作ってくれると、 評価する側を助けることになるだけでなく、その学会の構成員の業績は 高評価を得やすくなって分野が少し栄えることになるかもしれない、と 思ったりもします。もちろん、学会誌に書評が載ることもありますので そういう場合はその内容も参照できるとなおよいかもしれません。

もちろん、既存の学会の枠組みでは評価されないような、しかし重要な 学術的著作の翻訳書というのもあるでしょう。それはそれで、何か別の方策が 必要です。その種の本のなかでは、新聞の書評で紹介されることもあると 思いますので、その書評の内容も含めて評価の際に参照するという手もある かもしれませんが、そういうものはちょっと評価が難しいことがありそうですね…。

すでに、日本の人文系学会でも、そういう方面についての対策を考えたり まさにそういう基準を作っているところがあるかもしれないのですが、 調査不足でまだそういう情報にはたどり着いておりません。

いずれにしても、割とちゃんとした翻訳書を出せるような人は、その言語に関する 読解力やその本のテーマになっている事柄についての知見をかなり持っていると みなされることがおおいにあるようにも思いますので、研究としての評価はされなくても、 公募採用人事等の評価においてはプラスに働く場面もそれなりにあるのではないか という気もします。

業績になるかならないか以前の問題として?

良質な海外学術書の翻訳が以前に比べて減っているのかどうか、そういう調査結果をみた ことがないので客観的なことは何も言えませんが、海外の学会等に出て色々話を聴くと、 こういうテーマの本もまだ日本語では出てないのか…と思うことは少なくなく、 もうちょっとそういう翻訳書が出てくれればいいのに、と思うことがあるのは確かです。 ただ、では、誰がやるのかというと、そもそも翻訳する人が減っていないだろうか、という ことも気になります。また、あまり売れないかもしれない学術書の翻訳出版に付き合ってくれる 出版社というのももしかしたら以前よりちょっと減ったりパワーダウンしたりしている かもしれないと思ったりもします。紙の学術書自体の売り上げが落ちてきているという こともこの件には結構影響しているかもしれません。そのあたりも含めて少し大きな 見通しを持ちつつ善後策を考えていく必要があるのかもしれません。

そもそもの問題として…

ただ、もう少し大きな枠組みでの問題も生じつつあるようで、これをどう考えたらいいのか、と 悩んでおります。具体的には、以下のツィートの件なのですが、

こういうことになってしまうと、翻訳書が業績にならない、というようなレベルの話ではなくなってしまいます。 理工系の業績評価の論理というより、もしかしたら、研究業績評価企業のマーケティング戦略が大学全体を覆い尽くしてしまっている のかもしれないと思いますが、これはさすがにまずいのではないかと思うところです。

「書籍」として評価されなくても、出版助成をとっていれば外部資金獲得として、 本がたくさん売れれば社会貢献として評価されることはあり得るのかもしれませんが、 翻訳書も含む学術書全般を刊行するためのインセンティブを大きく引き下げることになりそうな話である ことは否定できません。

このあたりのことについては、いずれまたこちらのブログに思うところを書いてみたいと思っております。

Ubuntu16環境でCUDAをPythonのOpenCVモジュールから使えるようにする

ちょっと色々あって、Ubuntu16環境でCUDAをPythonのOpenCVから使えるようにする必要が生じました。 GPU使って画像のディープラーニングやってる人なら何のことかわかると思います。

基本的には、こちらのサイトがとても参考になりました。ほとんどこれに沿って作業したらできました。ありがとうございます。

qiita.com

ただ、当方の環境はUbuntu16でしたので、必要なパッケージの名称が少し違っていたりして、そのあたりの調整が必要でした。 それから、コンパイルのフラグもちょっと変更する必要がありまして、以下のようにしました。

CC=gcc-5 CXX=g++-5 cmake -D CMAKE_BUILD_TYPE=RELEASE -D OPENCV_EXTRA_MODULES_PATH=../../opencv_contrib/modules \
 -D OPENCV_GENERATE_PKGCONFIG=ON -D BUILD_opencv_apps=ON -D BUILD_opencv_calib3d=ON -D BUILD_opencv_core=ON \
 -D BUILD_opencv_cudaarithm=ON -D BUILD_opencv_cudabgsegm=ON -D BUILD_opencv_cudacodec=ON \
 -D BUILD_opencv_cudafeatures2d=ON -D BUILD_opencv_cudafilters=ON -D BUILD_opencv_cudaimgproc=ON \
 -D BUILD_opencv_cudalegacy=ON -D BUILD_opencv_cudaobjdetect=ON -D BUILD_opencv_cudaoptflow=ON \
 -D BUILD_opencv_cudastereo=ON -D BUILD_opencv_cudawarping=ON -D BUILD_opencv_cudev=ON \
 -D BUILD_opencv_features2d=ON -D BUILD_opencv_flann=ON -D BUILD_opencv_highgui=ON -D BUILD_opencv_imgcodecs=ON \
 -D BUILD_opencv_imgproc=ON -D BUILD_opencv_ml=ON -D BUILD_opencv_objdetect=ON \
 -D BUILD_opencv_photo=ON -D BUILD_opencv_stitching=ON -D BUILD_opencv_superres=ON \
 -D BUILD_opencv_ts=ON -D BUILD_opencv_video=ON -D BUILD_opencv_videoio=ON -D BUILD_opencv_videostab=ON \
 -D WITH_1394=ON -D WITH_CUBLAS=ON -D WITH_CUDA=ON -D WITH_CUFFT=ON -D WITH_EIGEN=ON -D WITH_FFMPEG=ON \
 -D WITH_GDAL=OFF -D WITH_GPHOTO2=ON -D WITH_GIGEAPI=ON -D WITH_GSTREAMER=ON -D WITH_GTK=ON \
 -D WITH_INTELPERC=OFF -D WITH_IPP=ON -D WITH_IPP_A=OFF -D WITH_JASPER=ON -D WITH_JPEG=ON -D WITH_LIBV4L=ON \
 -D WITH_OPENCL=ON -D WITH_OPENCLAMDBLAS=OFF -D WITH_OPENCLAMDFFT=OFF -D WITH_OPENCL_SVM=OFF \
 -D WITH_OPENEXR=ON -D WITH_OPENGL=ON -D WITH_OPENMP=OFF -D WITH_OPENNI=OFF -D WITH_PNG=ON \
 -D WITH_PTHREADS_PF=OFF -D WITH_PVAPI=ON -D WITH_TBB=ON -D WITH_TIFF=ON \
 -D WITH_UNICAP=OFF -D WITH_V4L=ON -D WITH_VTK=ON -D WITH_WEBP=ON -D WITH_XIMEA=OFF -D WITH_XINE=OFF \
 -D CUDA_NVCC_FLAGS=--expt-relaxed-constexpr -D CUDA_FAST_MATH=ON -D CUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda \
 -D CUDA_HOST_COMPILER=/usr/bin/gcc-5 -D PYTHON_DEFAULT_EXECUTABLE=python3  ..

それと、ちょっとハマったのが、pyenvやらなんやらでPython環境が色々あって、どれがターゲットになって コンパイルやインストールが行われるのかわからなくなってしまう、ということがありまして… make install 時に sudoを使うと、root環境でのPython環境になってしまって、pyenvの環境にインストールできないが これはどうしたら…といったあたりがハマりどころでした。

結局、今回は、Ubuntu16のデフォルトのPython向けにグローバル環境でインストールするという 割り切りをすることでなんとか使えるようにはなりましたが、振り返ってみると、opencvのインストールディレクトリ をユーザローカル環境に指定すれば、make install で sudoをする必要はなくなるはずですので、そのフラグを コンパイル時につけておけばよいのでしょうね。次に機会があればそういう風にしてみたいと思います。

研究業績はなぜ論文でなければならないのか?パワポはダメ?

久々に、いかにもブログらしいという感じの何の役にも立たない記事を書きます。

研究業績はなぜ論文でなければならないのか?

ということは自分としては長年の謎の一つでしたが、では、パワポ資料が研究業績だと言われたらどうするだろうか、と 考えてみることにしました。

パワポ資料、研究業績だと言っても悪くないような気がします。ファイルの形式にこだわって内容を見ないなんてナンセンスです!はい終了!

…と一瞬思ってしまいそうですが、しかし、これを研究業績として評価しようと思った場合に少し難しさが生じてくるような 気がしてきました。

パワポ資料は自由です。テキストや矢印や図があちこちに登場して、 それがなんとなく重なったりつながったりしながら何かをわかりやすく 伝えようとしてきます。いらすと屋さんのかわいい絵がさらにそれを助けてくれる こともあります。

では、目の前にある素敵なパワポ資料の内容が研究業績に値するかどうかを 判断するとしたらどうでしょうか。パワポ資料は 作るだけならすぐにできてしまいますし、正しいかどうかもよくわかりませんので、 研究業績としては、やはり内容がまっとうであるかどうかを確認してみなければ どうにもなりません。

とりあえず自分で内容をよくみてみることになりますが、専門的な内容で あれば判断は難しいので、その筋の専門の人がチェックしてくれて可否を 示してくれていたりすると安心です。学術雑誌だと「査読付き」雑誌で 採録されていれば、それがある種の質保証になりますね。(とはいえ、あとで 撤回されることもありますので査読付き雑誌に採録されていれば正しいという ことでもありませんが。)

さて、それでは、他の人が作ったパワポ資料を自分が評価するとなったとき、どうでしょうか。 スライド内にちりばめられたそれらの 矢印やテキストは、どういう意味を持っていると解釈できるでしょうか。矢印の形と 意味について、作者と同じ意味づけを共有できているでしょうか。図の重なりが あったとして、そこに作者は包含関係の提示を意図しているでしょうか。それとも 単なる偶然の重なり、あるいはデザイン上の問題でしょうか。イラスト屋さんの キャラの少し影の入った表情は研究成果の表現としてどのように位置づけられているのでしょうか。 …最終的に、そのスライドが説明しようとすることを正確に理解できていると確信できそうでしょうか。

というようなことを考え始めると、そもそもそういう記号の使い方を我々は 共有していないのではないか、という気持ちになってきます。そういえば、 フローチャートがあるじゃないか!国際標準だし!ISO 5807:1985をみんなで勉強! UMLもあるぞ!!ISO/IEC 19505-2 だ!!

と思ってみても、そういえば、パワポ作者がそれをきちんと使ってくれているかどうかが はっきりしないとそもそも評価はできないぞ…ということになります。

そうすると、パワポ資料を作成するときに、記号の使い方として準拠した規格名を 書いておけばいいということになりますが、そうすると「パワポ資料を研究業績に」 という話が含意するものとはかなりかけ離れた感じの話になってしまいそうです。 まずはいずれかの記号に関する規格を勉強するところから始めなければならなそうですね。

という風に考えてみると、論文ってなかなかよくできているものですね。 基本的に、文章があって、必ず一方向に読んでいかなければならないことになっています。 しかも、よくわからないことに、文章は一方向に読んでいくしかないにも 関わらず多層的・多面的な概念や状況を描写することもできてしまいますね。 というより、論文の文章を一意に理解できるということは、それだけ 文法が子細に標準化・共通化されているということであり、そして 非常に時間をかけてそれを用いた教育が施されているということでもあります。 これはフローチャートやUMLの勉強どころの話ではなさそうな気もします。 図が付されたりすることもありますが、多くの場合、図の読み方が文章で説明され ます。数式は、順番は関係ないこともありますが、解釈の仕方が決まっているから 特に問題ありませんね。

他人が表現する「成果」なるものが妥当なものかどうかを判断するためには、 少なくとも書かれたものの内容を理解する必要があり、そのためにはその 表現の仕方を書き手と読み手が共有していなければなりません。それを割と 長い間継続できている論文という仕組みはなかなか素晴らしいものであり、 しかし、そのために文法の標準化や教育というコストを社会全体としてかなり大きく かけてきているということにも圧倒されます。そのようなことを 踏まえつつパワポ資料を研究業績として きちんと扱おうと思ったら、そこで用いられる記号群やそれらの配置の 仕方について、相当程度標準化するとともに、その内容を容易に共有できる ようにトレーニングの仕組みも用意する必要がある…ということになるでしょうか。

いやはや、なかなか大変そうですね。