日本学術会議の提言を読んでみる:学術情報流通の現在と未来 6/n

さて、前回記事の続きです。

いよいよオープンデータ/オープンサイエンスの話に突入です。 この節の番号が前と同じになってしまっているのは、学術会議の提言の オーサリングシステムがXML化されていれば大丈夫だった可能性が高いのに…、という、 論文XML化の件と同じような構造の話になっていて、やや興味深い ところです。もちろん、LaTeXでもよいのですが、要するに章・節の ナンバリングを完全に自動化するかワードのように部分的に手動で 頑張ってしまうか、という違いが現れているところです。 こういったこともあるので、論文本文のXML化をしておくとよい、 というこの提言の内容につながるわけですね。

さて、冒頭がちょっと冗長になってしまいましたが、続けます。

http://www.scj.go.jp/ja/info/kohyo/pdf/kohyo-24-t297-6.pdf#page=17

(3)オープンデータ/オープンサイエンス

① オープンデータ/オープンサイエンス時代の研究データ管理

まずは研究データ管理の話です。2016年の提言ですでに指摘している そうですが、個別分野においても大学等でも、研究データの 運用に関する取り組みが進んできているようです。研究倫理や 公正の観点からもデータ管理は重要であり、文科省から 10年保存の通達も出ているところです。なかでも、 オープンデータ化は、研究の再現性の検証とデータ再利用による イノベーションの触発に寄与するとのことです。これは人文系においても 割と重要なことで、論文の査読をしろと言われて、論文内で参照されている原本(写本など) を確認しようとしても、原本は門外不出で時間をかけない交渉をしない とみせてもらえない、ということもあります。このような場合に、 デジタル情報が公開されていれば、そこで再現されている限りにおいては 確認ができますが、そうでないとお手上げ、ということもあります。 また、資料のデータや、研究に際して作成したデータが公開されているのであれば、 それのみで新しい発見をすることは難しくとも、他のデータと 組み合わせることで新たな文脈を見出したりといったことも あり得るでしょう。これも、デジタルデータになっていなければ、 機械可読性云々の前に、そもそも資料が出会ってもらえる機会も なかなか得られないことでしょう。

これに関連して最近気になっていることの一つに、人文系の研究データと言った場合に、 その内実が少なくとも二つに分けられるようだ、ということがあります。一つは 資料をデジタル撮影したりデジタル翻刻したりした、いわば、研究対象資料の デジタル代替物、もう一つは、そういったものから何らかの知識を抽出した データ、です。後者は、カードだったり、ノートだったり、目録だったり、 色々なものがあり得ます。また、語彙集や索引などもこれに含むと 考えたいところです。研究者による知的な判断が比較的大きく含まれるもの、 という風にみておきたいところです。もちろん、デジタル翻刻もまたかなりの 知的判断を要するものではありますが、一方で、デジタル翻刻は、 基礎的な資料として利用されるようにするために、 なるべく研究者の主観が含まれないようにすることを志向するため、 そこから知識としての情報を取り出すという行為とは方向性に 大きな違いがあるように思われます。そこで、そのような基礎的な資料 という方向性を強くもった研究データと、これもまた客観性を 持つことを志向するのではありますが、しかしながらより積極的な 判断が加えられるものとしての二次的な研究データ、という風に分けて 考えると色々話を進めやすくなるのではないかと思っております。 最近、社会調査データの話にお付き合いすることがあるのですが、 この社会調査データは、人文学における研究データとしてはどの 部分にあたるのだろうか…とあれこれ検討するなかで出てきたのが この分け方です。現在、国文学研究資料館を中心に、全国で古典籍の デジタル撮影が大がかりに進められていますが、これを研究に活かそうと するなら、社会調査データのようなレベルでの機械可読性とはかなり 縁遠い状況です。一方、たとえば国立国語研究所が公開している 日本誤の歴史コーパスのように、資料からデジタル翻刻をした上で、さらに 一定の観点から詳細な注記(この場合は各単語に対する品詞情報など)が行なわれていると、 社会調査データのように機械可読性が高いものであると言えるのではないかと 思います。これらを仮に「一次研究データ」、「二次研究データ」として 区別するとしたら、現在国文学研究資料館を中心に大規模に推進され蓄積されている データの多くはあくまでも一次研究データであり、人文学における二次研究データは まだあまり蓄積されていない、という風にみることができそうです。 では社会調査データが用いられる世界における「一次研究データ」とは 何か、ということも考えてみたいところですが、ちょっと(かなり)長くなりそうです ので、それはまた別の機会に述べることにしたいと思います。

さて、提言に戻りますと、次は学術情報出版におけるデータの扱いが説明されます。 ここではデータポリシーの制定が重要であり、 最近は日本からも投稿が増えているオープンアクセスジャーナルでは、 論文の根拠となるデータのオープンな公開を求めるポリシーを採用している とのことです。ただ、必ずしもジャーナル運営側がデータを引き受けるとは 限らず、FAIR原則に従うデータリポジトリに掲載することを求めることもあるようです。 すでにいくつか著名なデータリポジトリも存在するようですが、我が国にはまだ そういうサイトは存在しないようです。

このような場合、人文学では、上述の二分類のうちの「一次研究データ」に ついては、いわゆるデジタルアーカイブとして公開されているものが 多いと思いますが、データ公開機関側ですでに公開されているため、その参照URL等を 書いておけばよいということになりそうですが、FAIR原則に準拠している ようなものがどれくらいあるか、自分が扱うデータがそれに準拠しているかどうか、 というのは確認・検討してみる必要がありそうです。それが再利用・再配布可能な 条件で公開されている場合には、むしろ論文と一緒に提出した方が、論文投稿後 のデータ消失といった憂き目にはあわずにすむかもしれません。 あるいはまた、上述の二分類のうちの「二次研究データ」の方は、 またちょっと状況が変わってきそうですが、最近はGitHubを用いる例が見られるようになって きています。たとえば、日本の古辞書を研究しているグループでは、 古辞書を翻刻し、一定の方針を立ててデータベース化した上でGithub上に公開しつつ、これを元に 着々と研究発表を行なってきています。海外に目を向けてみると、たとえば ドイツでは人文学のためのタグ付きコーパス(主にTEI準拠) を共有する仕組みとしてTextGridが提供されて シボレス認証にも対応していたりして、なかなか重厚な感じです。 欧州全体としては、CLARINというプロジェクトで、タグ付きコーパスを集約しているようです。 CLARINは、欧州の研究インフラ事業ERICの一環として運用されているもののようで、 デジタル研究インフラのなかに人文学の「二次研究データ」がしっかりと位置づけられているようですね。 我が国もそろそろこういったところを目指さねばならないだろうと思ってきているところです。

さて、また提言の方に戻りますと、我が国の学術情報流通もこのような方向に沿っていくべきであり、 そうでなければ大きなリスクを抱えていく可能性があることが指摘されます。しかし、それを 実現するのは国内の小さな学会では難しいので、共同利用できるリポジトリを核とするサービスの 構築を日本でも行なうべきであるとしています。この点は、NIIの方で何かやっているとか やろうとしているとか聞いたことがあるような気もしますが、提言の先の方にそういう話が 出てくるのかもしれませんね…。人文学だと、人文学オープンデータ共同利用センター(CODH) があって、今のところ独自作成のデータの公開が主であるように見えますが、今後、「二次研究データ」の データリポジトリの方向も持っていくような感じになっていただけるとありがたいと個人的には思っております。

また提言に戻りますと、研究助成団体による「オープン化縛り」が強くなるのにあわせて、 今後はオープン化しているかどうかが差別化の一つの重要な基準になっていくであろうことが 強調されます。それを解決するためには、新しい法人組織が必要であることが改めて提起されます。 そして、博士人材にこれを手がけさせることできちんとした専門家を育成していくべきであると指摘して、 この項を締めくくります。ここで興味深いのは、「理工学分野の博士の学位を有するとともにデータ管理の 専門的な知識を有する専門家が必要であり…」というところです。当たり前と言われればその通りですが、 研究データ管理にあたっては、研究データ管理そのものについての知識だけでなく、 特定分野の知識が博士レベルで必要であるとしている点です。つまり、もし人文系のデータも 蓄積していくということになれば、やはり人文系の博士号を持つ人材が必要になるということです。 人文系と言っても内容は非常に幅広いので、一人ですべてカバーするのは難しく、一人が数分野を 担当する感じで少なくとも数人は必要になるはずです。そこで博士人材が活かされることがあれば ありがたいと思います。

ということで、今夜もそろそろ限界ですのでここまでとしたいと思います。1頁しか進みませんでしたが、 内容が内容だけに、ブログの方はちょっと長くなってしまいました…。