Web動画:Voyant-toolsで簡単テキスト分析:コロナウイルス感染症対策本部の会議資料をみてみよう

「Voyant-toolsで簡単テキスト分析:コロナウイルス感染症対策本部の会議資料をみてみよう」という動画を作って、東京大学の大向先生が主宰しておられるUTDHチャンネルにあげていただきました。

Voyant-toolsは、カナダでデジタル・ヒューマニティーズを牽引する二人の先生が開発・公開しておられる簡単テキスト分析ツールで、解説本的なものも出ています。 3年ほどまえに、このブログで採り上げたことがありますが、あの頃からさらに進歩しているような感じです。

今回は、開発者ご本人による紹介動画もいただけたので、そちらもあげていただいております。

www.youtube.com

日本語テキストの分析も一応できるということですので、ここでは、首相官邸のWebサイトに掲載されているコロナウイルス感染症対策本部の第1回から第19回の会議資料を資料として使ってみました。そのファイル群は以下のリンクからダウンロードできます。

http://www.dhii.jp/nagasaki/%E6%84%9F%E6%9F%93%E7%97%87%E5%AF%BE%E7%AD%96%E6%9C%AC%E9%83%A8.zip

元は主にパワポから作ったPDFファイルのようで、そこからテキストデータだけを抜き出しています。文章というよりはポンチ絵の中の単語を 拾いだして数えるような感じになっているようです。ですので、通常のテキスト分析のような、文章全体として反語的表現や否定表現を行っているために分析結果がうまくでない、 という難しさはやや少ないのではないかという気がします。

今回の動画は、Voyant-toolsのごく基本的な使い方を示しただけです。これを機にちょっと試してみたい、という方は、ぜひ以下の動画をご覧ください。

www.youtube.com

この動画を作成していて特に興味深かったのは「学校」という単語の時系列での登場頻度変化です。

f:id:digitalnagasaki:20200326142028p:plain
学校の登場頻度

詳しくは、動画の5分過ぎあたりからご覧いただくか、上に挙げたテキストデータをご自身で試してみるなどしてみてください。

なお、Voyant-toolsには様々な機能がありますので、ぜひお試ししてみてください。それから、より深い分析にはKH Coderがおすすめですので、そちらもぜひお試しください。

それから、この動画を載せてくださっているUTDH動画チャンネルでは、チャンネル登録者を増やしたいという意向がおありだそうです。チャンネル登録していただくと、人文情報学関係の動画が公開されたときなどに通知が来るようですので、よかったらぜひ、「チャンネル登録」をしてみてください。

support.google.com