検索した語の前/後のn文字をグループ化&ヒット数の多い順にリスト@みんなで翻刻サーチ

 本日は、顧問としてお手伝いしている大学院生たちのデジタルヒストリー研究グループ、ToDHによるシンポジウムがあり、その関係で朝からお仕事でした。シンポジウムは大阪大学と九州大学からの招待講演の先生方お二人の深いお話と、主に大学院生達による新鮮な発表とで、とても充実したものであったように思われました。彼らの成長ぶりを確認できたという意味でもうれしいことであり、これからもさらに自ら高めつつ、相互に高め合っていただければと思うところです。コロナウイルスへの対応として、Youtube配信をメインとした開催になりましたが、これは大向一輝氏による安定の配信でした。会の模様はtwitterのハッシュタグ等でもある程度確認できるようです。

twitter.com

ところで、シンポジウムの最中、地震史料のテキスト分析に関する発表を聞いていて、近世以前のテキストの分析ってやっぱり形態素解析のところですでに難しさがあるよね…と思って、みんなで翻刻サーチへの機能追加ですが、「検索した語の前か後のn文字をグルーピングしてヒット数の多い順にリストする」というものを作ってみました。

たとえば、以下のように「通り」で検索した後に、

https://honkoku.dhii.jp/search/?url_key=%E9%80%9A%E3%82%8A&url_var=1&url_proj=%E3%81%99%E3%81%B9%E3%81%A6&url_col=%E3%81%99%E3%81%B9%E3%81%A6

以下のように、「前の2文字をグループ化」してみると、うら通り: 9件、本橋通り: 8件、本郷通り: 7件…という風になります。

f:id:digitalnagasaki:20200223235115p:plain

「本橋通り」はちょっと変なのでもう1文字増やしてみると…「日本橋通り: 8件」という風になりました。

f:id:digitalnagasaki:20200223235306p:plain

 N-gram分析にしたらいいじゃないかという声が聞こえてきそうではありますが、とりあえず探索的な使い方ができるといいのではと思って作ってみたのでした。

他にもたとえば、「阿弥陀」の次の1文字は何が多いかな…という風なことを確認してみたり、

f:id:digitalnagasaki:20200223235508p:plain

どんな菩薩が多いかな…と確認してみたり、と色々できます。

f:id:digitalnagasaki:20200223235620p:plain

形態素解析の精度が高いのであれば、いちいちこんなことをしなくてもOKですので、むしろ形態素解析ソフトを組み込んでみようかとも思うのですが、まあとりあえずこれはこれで、ということで、よかったらお試ししてみてください。