hyperestraier で分かち書きキーワード抽出の動作確認

mecab付きでコンパイルしたやつの動作確認。

                            • -

docsデイレクトリに文書を置いて動作確認

$wget http://hyperestraier.sourceforge.net/uguide-ja.html
$mkdir docs
$mv uguide-ja.html docs
$estcmd gather -il ja -sd cascket docs
$estcmd search cascket/ windows

                • [02D18ACF48D0BB99]--------

VERSION 1.0
NODE local
HIT 1
HINT#1 windows 1
TIME 0.000329
DOCNUM 1
WORDNUM 6456
VIEW ID

                • [02D18ACF48D0BB99]--------

1

                • [02D18ACF48D0BB99]--------:END

1文書がhitした。

$estcmd extkeys cascket/
$estcmd words cascket

キーワード一覧出力するとngram単位登録されているので、mecabを使う。

estcmd gather -il ja -ic utf-8 -sd casket docs/
estcmd extkeys -um casket
estcmd words -kw casket/

estcmd 1
estseek 1
します 1
する 1
です 1
インデックス 1
オプション 1
...

うまくキーワード単位で認識してくれたようだ。

$estcmd search -vh cascket/ windows
$estcmd search -vx cascket/ windows
ここでは"cascket"がインデックスdbで"windows"は検索語。
searchサブコマンドに"-vh"や"-hx"のオプションで結果を視認できる。