フリーのOCRソフトTesseract 4 が簡単に使えるようになってました!

しばらく前から時々試してみていたTesseract ですが、気がついたらえらく使いやすい感じになっていたので、また試してみました。

なんと、メジャーなLinuxディストリビューションごとにバイナリが用意されていたのです。こういうものは 「Ubuntuだとこうやってインストールできます」という話が多くて、RHEL/CentOSユーザな私はコンパイル環境があわなくて泣きながら作業することが 多かったのですが、今回はなんと、RHELにもCentOSにもバイナリが用意されています。さっそく、バイナリインストールです。

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/
sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
yum update
yum install tesseract 
yum install tesseract-langpack-jpn

これでいきなり使えるようになってしまったようです。コマンドラインで

$ tesseract 画像ファイル名 出力先 -l jpn

ということで使えてしまいました。ただ、トレーニング済みデータのもっと大きなものが公開されていましたので、 それをダウンロードして設置…は、CentOS7では以下のURLに置いてあるようでしたので、そこのファイルを 置き換えました。

/usr/share/tesseract/4/tessdata/

そうすると、なんだかちょっと精度が高まったような気がします。ちなみに縦書き日本語用の jpn_vert.traineddata というのもありまして 縦書き資料ではこちらを使って見ると多少精度が高まります。その場合、以下のようなコマンドになるようです。

$ tesseract 画像ファイル名 出力先 -l jpn_vert

いずれにしましても、とりあえずLinuxのコマンドラインから使えるようになりましたので、シェルスクリプトでの繰り返し処理さえ書ければ、各地の公開画像を色々ダウンロードしてどんどんOCRをかけてみる ことが割と簡単にできるようになりました。Tesseract3の時も一応できましたが、それよりは精度があがったような気がします。

ちなみに、精度を高めべく学習させることもできるそうですので、それについてもこれから少し試してみたいと思っております。

ということで、みんなで色々試してみましょう!