簡易テクスト分析にVoyant-Toolsもいかがでしょうか?

先日ようやく、東京大学大学院人文社会系研究科の次世代人文学開発センター人文情報学拠点が開設する人文情報学概論(いわゆるデジタル・ヒューマニティーズ)の授業を履修した大学院生達によるVoyant-Tools日本語インターフェイスβ版が公開されました。そんなに腕に覚えがないのにデータを視覚化・可視化しなければらない人や、テクスト分析を手軽にちょっと試してみたい、という人向けの、簡単にちょっと使えるテクスト解析ツールです。そして、今回のバージョンでは、日本語の解析も普通にできます。分析したい頁のURLを集めてきて、まとめて貼り付けるだけで解析して色々な形で視覚化してくれます。複数ファイルをアップロードして解析することもできます。とはいえ、あんまり細かいことはできないのですが、Web環境でイージーに使える、というのと、ダウンロードしてJava環境でも使える(=WindowsでもMacでもLinuxでも使える)というのが割と大きなメリットになる場合があろうかと思います。

 

 なお、このツールを作成・提供しているのは、カナダ・マギル大学のDHの准教授Stéfan Sinclair氏と、カナダ・アルバータ大学のGeoffrey Rockwell教授です。

 

では、たとえば、旧七帝大の総長の最近のご挨拶などのURLをちょっと分析してみましょう。

まずは、URL収集です。今回は下記のURLを使ってみています。

http://www.hokudai.ac.jp/introduction/president/message/282016.html
http://www.tohoku.ac.jp/japanese/profile/president/01/president0102/20160104.html
http://www.u-tokyo.ac.jp/gen01/b01_01_j.html
http://www.nagoya-u.ac.jp/about-nu/president/index.html
http://www.kyoto-u.ac.jp/ja/about/president/message.html
http://www.osaka-u.ac.jp/ja/news/topics/2016/01/files/20160104_01
https://www.kyushu-u.ac.jp/ja/university/president/message/150801message/

 (なお、複数URLでなく、複数のファイルをアップロードすることもできます)

これらのURLを、下記のように、テキストエリアに貼り付けます。

 

f:id:digitalnagasaki:20160729235752j:plain

 

そして「結果を表示する」をクリックすると、下記のようになりました。Voyanto-toolsが以前から活用しているシーラスという機能を用いて、以前より高度な検索もできるようになった感じあります。

 

f:id:digitalnagasaki:20160730000026j:plain

 

しかし、このままでは助詞助動詞の類いが多く、文体の特徴はつかめるかもしれませんが、内容の特徴をつかむにはちょっと難しいような感じがします。そこで、「ストップワードリスト」を作って読み込ませてみます。ストップワードリストを作成するには、下記の図中の赤丸の箇所をクリックします。

 

f:id:digitalnagasaki:20160730032841p:plain

 

そうすると、下記のようなダイアログが表示されます。

 

f:id:digitalnagasaki:20160729235944j:plain

 

ここで、「ストップワード」のところの選択肢として「新規リストの作成」を選んで「リストの編集」をクリックすると、リストの編集画面が表示されます。この編集画面で、上記のシーラスの画像を見ながら、自分の分析には必要なさそうな単語をどんどん追加していきます。そして、「全体に適用」にチェックボックスがはいっていることを確認して、追加が終わったら「確認」をクリックすると、以下のような感じで、内容に関わる語が多く表示されるようになります。

f:id:digitalnagasaki:20160730000137j:plain

あとは、「スケール」をクリックしてみていただくと文書毎に選択できたりしますので、それで多少の傾向をつかんだりすることができるかもしれません。

 

また、ストップワードを全体に適用する、という操作を行ったので、他のツールも、、ストップワードが適用された状態で再描画されたはずです。それぞれに見てみてください。

 

さて、Voyant-tools 2.0の大きな目玉の一つは、複数文書を読み込んで文書館の関係を表示できるという機能です。Webブラウザのウインドウの右上の方にカーソルをあわせてから、赤丸をつけたアイコンをクリックしてください。そうすると…

f:id:digitalnagasaki:20160730000225j:plain

 

 

下記のようになります。(なお、ここで注意していただきたいのは、この表示では、それぞれのWeb頁のtitleタグを拾って表示しているので、どの文書がどれかわかりにくいことがあります。そういった場合に対応するためには、ローカルで個別にファイルを作成してアップロードする、という手もあります。ただし、ローカルファイルを使った場合、ファイル名ではなく、ファイル中のタイトルプロパティを用いることがあるようですので、あれ?と思ったらそこを確認してみてください。)

これは、メニュー・サブメニューが表示されるものとなっています。

 

f:id:digitalnagasaki:20160730000320j:plain

 

ここで「視覚化ツール」から 「散布図」を選ぶと、各文書間の関係などが表示されます。また、「バブルライン」「タームラジオ」「テクスチャルアーク」など、選ぶと面白い結果を表示してくれる様々な機能が提供されていますんので、それぞれ試してみてください。下記は「タームラジオ」の例です。

 

f:id:digitalnagasaki:20160730020650j:plain

 

 

下記のグラフは、文書間の類似度を表示するもののようです。

 

f:id:digitalnagasaki:20160730035931j:plain

 

それから、今回のバージョンはスタンドアロンで利用することもできますスタンドアロン版では、ネットにつながらない、サーバにつながらない、皆で一斉に使うと遅くなる、といった問題がなくなりますので、これはこれで結構便利です。詳しくは下記のURLを ご覧ください。

https://github.com/sgsinclair/VoyantServer/releases/tag/2.1

なお、スタンドアロン版をパソコン上で使うにはJava実行環境が必要ですので、未インストールの方はとりあえずJava 実行環境をインストールしてください。

 

以下、最後まで読んでくださった方へのオマケとして、今回使った「ストップワードリスト」を掲載しておきます。無保証ですが、ご自由にご活用ください。

 

0
1
2
3
4
5
6
7
8
9
a
at
for
in
of
the
あり
ある

いる
おり

から


くだ
こと
ことに
この
これ


さらに

した
しま
する
その
それ

ため

だけ

って

てい

でき
できる
です
では
でも

という
として

ない
なく
など
なり
なる

において
における
について

ので




ます
また


もの

よう
より


れる
ろう