DH国際シンポ告知:くずし字・手書き文字認識をフリーソフト/オープンソースソフトウェアで+Dockerのすすめ

くずし字や手書き文字を認識してくれるソフトウェアやサービスが最近ちょこちょこと出てきています。多くは商用サービスだったり、フリーだったとしても、サービス提供サイトにアクセスしなければ利用できなかったりします。

このような流れのなかで、フリーソフト/オープンソースソフトウェアとして開発・公開されているものもいくつかあります。海外で代表的なものに、escriptoriiumというソフトウェアがあります。日本でも、国立国会図書館が古典籍OCRを開発してフリーソフトウェアとして公開しています。

6月3日(火)の午後に、この二つのくずし字・手書き文字認識のオープンソースソフトウェアの開発プロジェクトの方々が慶應大学三田キャンパスに来てくださって講演をしてくださいます。ディスカッションの時間もありますので、色々有益な話が聞けるはずです。お時間がおありのかたは、ぜひご参加ください。

シンポジウムの詳細は以下のサイトをご覧ください。

sites.google.com

ついでにこれらのソフトウェアについてごく簡単に解説しますと、

escriptoriiumは主にフランスのチームで開発されているもので、元々はアラビア系文字などの右から左に書く言語向けに開発されていたものだったようで(詳しくは宮川創氏の論考をご参照ください)、ラテン文字以外のものへの対応にも優れています。フランスINRIAのサイトでサービスとして提供されていますが、オープンソースソフトウェアなので、自分のコンピュータにインストールして使うこともできます。dockerでインストールできるようになっていますので、dockerに慣れている人なら簡単にインストールして動かせます。これなら、用途に応じてはやいコンピュータを用意してみるなど色々工夫もできますし、何より、サービス提供者側の都合に振り回されずにこういうものを動かせるということには、時として少し安心感があります。

日本の国立国会図書館による古典籍OCRは、上記のオリジナル版以外に、最近 Lite版も出て、パソコン上で簡単に動かせるようになったのですが、性能面では、オリジナル版の方がかなり性能は良いです。オリジナル版の方は、GPUを使用する必要がありますので、GPUチップを装備したパソコンを用意する必要がありますが、いわゆるゲーミングPCには大体ついているものですので、すごく高価なものではありません。デスクトップPCなら15万円くらいで入手できるのではないでしょうか。そして、ここでもやはり、dockerを使うことで簡単にインストールできるようになっています。

ということで、dockerを使えるようになることで、以上の二つのソフトウェアは比較的簡単にインストールできますので、dockerの使い方を覚えるのは有用です。これ以外にも、dockerを使えばインストールが簡単になるソフトウェアというのが各地で開発されています。もしちょっと時間があって何か新しいツールの勉強をしてみようかな…と思っている人は、具体的なツールに手を出す前に、dockerを少し覚えてみてから、dockerを介してインストールできるツール、を探してみると、一気に幅が広がって面白い展開になるかもしれません。