『絵入り源氏物語』の分析サイトが公開されたようです：人文系オープンデータの活用事例

昨年11月、「国文研データセット」として、350点のデジタル化古典籍が公開されましたが、このたびは、それに続いて350点が新たに公開され、総計700点となりました。しかも、今回の公開は人文学オープンデータ共同利用センター準備室というまったく新しい組織からで、さらに、IIIF対応の形でも公開されるという、前回に比べてあらゆる面で前進がみられ、大変頼もしくありがたいことです。それについては、詳しくはまた別にブログ記事などにさせていただきたいと思っております。

オープンデータで公開する、ということは、第三者に再配布を許可するということであり、それによって様々な利活用を促進するということです。視点を変えると、オープンデータ化を推進するためには、それによって利活用されたという事例が増えていくことが何よりも大切であり、特に、オープンデータ公開した組織・機関が特に労せずともどんどん利活用が広がっていくという事例があれば、なおよいはずだ、と思っています。利活用に際しての交渉というコストを下げることは、公開者側にとってもメリットが大きいはずです。

ということで、筆者としては、特に人文学におけるオープンデータの利活用事例を心待ちにしていたのですが、先日、ついに一つ、登場しました。国文研データセット⇒日本古典籍データセットにおける『絵入源氏物語』のテキストデータを統計解析するWebアプリケーション、です。『源氏物語』の統計分析を専門としておられる同志社大学研究開発推進機構の助教の土山玄さんが作成されたサイトであり、先日の人文科学とコンピュータ研究会でのご発表では、まだ試作段階とのことでしたが、オープンデータとして公開されている国文研データセットのテクストデータを多少前処理した上で、国立国語研究所が公開しているWeb茶まめの「中古和文」辞書で形態素解析を行い、統計処理できるようにしたそうです。

さて、その結果ですが、『源氏物語』の研究者ではない筆者にはあまり適切な調べ方ができず、いかにも素人な感じで恐縮ですが、たとえば以下のような感じになります。

まず、上記の発表のなかで土山さんが紹介しておられた例ですが、「あはれ」の巻ごとの出現頻度は以下のようにグラフ表示されます。

f:id:digitalnagasaki:20161124175850p:plain

「やんごとなし」は第42巻匂宮に突出して多く出現するようです。

f:id:digitalnagasaki:20161124175922p:plain

あるいは、「きこゆ」「聞こゆ」という表記の出現頻度を比較すると以下のようになっており、ひらがな表記が全体として多いようですが、いくつかの巻で突出して多くなっているようです。

f:id:digitalnagasaki:20161124175857p:plain

こういった結果からすぐに何かを結論づけることはできないと思いますが、何かを調べるためのきっかけとしては有益かもしれません。

他にも、巻ごとの品詞の比率や、巻ごとの主成分分析の結果も表示されるようになっています。今後さらに機能が拡充されていくようですので、期待させていただきたいところです。また、他の源氏物語の写本・版本もこういう形で簡単に分析できるようになっていけば、源氏物語も今までとはまた少し違った観点からも楽しめるようになっていくのではないかと思ったところでした。

　また、上記の土山さんの発表論文には具体的な作業手順なども公表されていますので、そちらを読んでいただいて、こういったことに取り組んでくる方々がでてきてくださるのも面白いのではないかと思っております。