hyperestraier で分かち書きキーワード抽出の動作確認
mecab付きでコンパイルしたやつの動作確認。
-
-
-
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
-
-
-
-
-
-
docsデイレクトリに文書を置いて動作確認
$wget http://hyperestraier.sourceforge.net/uguide-ja.html
$mkdir docs
$mv uguide-ja.html docs
$estcmd gather -il ja -sd cascket docs
$estcmd search cascket/ windows
- [02D18ACF48D0BB99]--------
VERSION 1.0
NODE local
HIT 1
HINT#1 windows 1
TIME 0.000329
DOCNUM 1
WORDNUM 6456
VIEW ID
- [02D18ACF48D0BB99]--------
1
- [02D18ACF48D0BB99]--------:END
1文書がhitした。
$estcmd extkeys cascket/
$estcmd words cascket
でキーワード一覧出力するとngram単位登録されているので、mecabを使う。
estcmd gather -il ja -ic utf-8 -sd casket docs/
estcmd extkeys -um casket
estcmd words -kw casket/estcmd 1
estseek 1
します 1
する 1
です 1
インデックス 1
オプション 1
...
うまくキーワード単位で認識してくれたようだ。
$estcmd search -vh cascket/ windows
$estcmd search -vx cascket/ windows
ここでは"cascket"がインデックスdbで"windows"は検索語。
searchサブコマンドに"-vh"や"-hx"のオプションで結果を視認できる。