2020-01-01から1ヶ月間の記事一覧

Apache Solr で異体字同時検索

さて、今回は異体字同時検索です。クラウドソーシング翻刻に限らず、字体・字形の選択ポリシーが一定していなかったり徹底されていなかったりということは、テキスト文字起こし全般においてしばしばみられます。普通にデータを作成していても、國學院大學を…

Apache Solr でとりあえず全文検索

前回記事では、Apache Solrを起動するところまでいきました。起動しただけではなんともなりませんので、まずは全文検索をできるようにしてみましょう。 Apache Solrで全文検索をできるようにするためには、大体以下のようなプロセスがあります。 Apache Solr…

Apache Solr - 全文検索、異体字同時検索、ファセット…

ここ5年ほど、Webでの全文検索は、どこも大体似たような感じの機能に落ち着いてきているように思います。全文検索ができて、異体字も同時に検索ができて、ファセットから絞り込みができて…。 この背景には、Apache Luceneという全文検索ソフトウェアの存在が…

みんなで翻刻のWeb API!

Web APIという言葉はあちこちで耳にされることがあると思います。API=アプリケーション・プログラミング・インターフェイス、ということで、つまり何かを作ったり動かしたりする時にやりとりをする機能、をWebで使えるようにしたもの、と考えておけばいいで…

みんなで翻刻⇔みんなで検索

「みんなで翻刻 」というサイトを知らない人は、このブログの読者にはいらっしゃらないと思います。しかしながら、○○業界なら必須アイテムになりそうだし、大体の人は知ってそうな…と思ってご紹介してみると意外とそうでもないことが多く、人が自分(の仕事…