みんなで翻刻⇔みんなで検索

みんなで翻刻 」というサイトを知らない人は、このブログの読者にはいらっしゃらないと思います。しかしながら、○○業界なら必須アイテムになりそうだし、大体の人は知ってそうな…と思ってご紹介してみると意外とそうでもないことが多く、人が自分(の仕事)にとって必要(になりそう)な情報を入手する機会を作るということがいかに難しいことか、このサイトを話題にした際にも時折感じることです。

ところで、この年末年始の半分は、この「みんなで翻刻」の検索システムの作成に費やしておりました。日本の仏典の翻刻も最近取り込んでいただいたのですが、作業を進めていくにあたり、とりあえず、返り点や改行、いくつかのタグをまたいだ全文検索、そして異体字もまとめて検索できるようになっていると便利なのではないか、ということで、開発者の橋本雄太氏にお願いしてWeb APIを作っていただきました。これを使って「みんなで翻刻」のテキストデータをごそっと取り出して少し手を加えて検索用インデックスを作り、さらにそれを検索できるインターフェイスを作成する、という作業でした。

honkoku.dhii.jp

上記のリンクをご覧いただくと、とりあえず検索ができるようになっています。検索結果から、「みんなで翻刻」の該当頁に戻れるようになっていて、そこで画像とテキストが確認できます。なお、リンク先は、この検索システムで何ができるか一目でわかるように、検索結果の状態を表示しています。

いつもの作り方であれば全然時間はかからないのですが、今回は、若い人達に「もう古いっすよそれ」と言われるやり方を捨てて、「新しいWebアプリの書き方」を勉強しながら作成しました。Python3でFlaskというマイクロフレームワークを使ってみたのでした。ついでにjQueryというJavascriptのライブラリもやめてVue.jsに移行しようと思ったのですが、こちらは思ったほどすぐに簡単に動かすことができず、いつものjQueryで書いたら一瞬で書き終わったので、こちらはもう少し使い続けることになりそうです。

全体の構成としては、Web APIを用いて取得したテキストデータをApache Solrに入れて、それをPython3からURLのクエリを投げて結果をFlaskで整形して表示、という感じです。異体字同時検索はApache SolrのcharFilterで自作のマッピングファイルを読み込ませています。メニューの絞り込みとか継承にjQueryを少し使っていて、表示のところでもBootstrap4を使っているのでそちらでもどこかでjQueryが使われているかもしれない、という状況です。

当面の目標は、「みんなで翻刻」でデータの入力・更新があったらそれを検索結果に反映させることなのですが、その機能はまだできていません。そろそろいくつかの事務仕事に集中しなければなりませんので、そちらが片付いてからまた取り掛かりますので、もう少し時間がかかりそうです。ですが、そこまでは必ずやります。

せっかくですので、ここで得たノウハウをブログに開陳していきたいところなのですが、今はちょっと時間がないので、少し時間ができたらぼちぼちやっていきたいと思います。

ということで、本年もよろしくお願いいたします。