Apache Solr

サンスクリット写本 データベースを作った話

最近、サンスクリット写本のデータベースを作りました。といっても、文字起こししたテキストデータベースではなくて、 デジタル画像のデータベースです。世間ではむしろ「デジタルアーカイブ」と言った方が通りがいいでしょうか。 一人で作ったわけではなく…

Apache Solr8のnested documentの検索の仕方

表題の件について、結構苦労して色々なパラメータの使い方を理解して、一人で暖めておくのはもったいないのでメモ。 Solr8では2段以上(上限不明)のデータのネストが可能。 スキーマの作り方は今のところ十分に理解できていないが、dynamicFieldを用いるこ…

Apache Solrの検索でtoo many boolean clausesと言われた時

細かい話で恐縮ですが、自分のメモも兼ねて。 Apache Solrで作ったインデックスに細々検索をかけて、少し他の人にもチェックをお願いしたら、少し長めの文字列で検索した時に以下のようなエラーが出るという報告をいただきました。 { "responseHeader":{ "st…

続:Apache Solrでファセット表示のタネ作り

今回は、以下の企画の続編です。 digitalnagasaki.hatenablog.com が… facet.pivotという機能を使った方が断然楽であるようですので、それを使って みんなで翻刻サーチに資料単位での絞り込み機能をつけてみたところです。 たとえば、以下のリンクのような感…

Flask/Python3からApache Solrに問い合わせるには

さて、ここまでApache Solrへの問い合わせの仕方を色々とみてきました。検索結果はJSON形式だったりCSV形式だったり、いくつか選ぶことはできるものの、人に優しい感じではありません。 しかしながら、コンピュータにはとても優しいもので、ということは、コ…

Apache Solrでファセット表示のタネ作り

最近、多くの検索サイトでは、検索した時に、絞り込みの助けになるような分類が横に表示されるものが増えています。Amazonや楽天では、検索語を含む商品のカテゴリやメーカー、価格帯などが出ますし、ジャパンサーチで検索すると所蔵機関がリストされたりし…

Apache Solr で異体字同時検索

さて、今回は異体字同時検索です。クラウドソーシング翻刻に限らず、字体・字形の選択ポリシーが一定していなかったり徹底されていなかったりということは、テキスト文字起こし全般においてしばしばみられます。普通にデータを作成していても、國學院大學を…

Apache Solr でとりあえず全文検索

前回記事では、Apache Solrを起動するところまでいきました。起動しただけではなんともなりませんので、まずは全文検索をできるようにしてみましょう。 Apache Solrで全文検索をできるようにするためには、大体以下のようなプロセスがあります。 Apache Solr…

Apache Solr - 全文検索、異体字同時検索、ファセット…

ここ5年ほど、Webでの全文検索は、どこも大体似たような感じの機能に落ち着いてきているように思います。全文検索ができて、異体字も同時に検索ができて、ファセットから絞り込みができて…。 この背景には、Apache Luceneという全文検索ソフトウェアの存在が…