Top  > 雑記帳  > キーワード別  > Namazu/Kakasi

Namazu/Kakasiに関する雑記

  2002年02月05日(火)   kakasi再び
うつらうつらとkakasi 2.3.4のソースを読んでいます。まずmkkanwa関係を見て基本辞書のフォーマットはわかりました。今はkakasi本体のはじめの方を見ているところです。ISO-2022形式のデータをさばくためのC0/GR/GL/G0/G1/G2/G3のハンドリングが面倒そうです。EUCとShift JISに限ってしまえば結構シンプルになるんだろうな、という気がします。 
 
まだ辞書引きのところにはいっていません。c[]とn[]はわかるのですが、r[]の役割がよくわからないな、といったところです。 
 
【今日の日経平均】 9,475 -156

  2001年12月30日(日)   Kakasi
もうNamazuはやめようと思ったのですが、どうも中途半端なのでもう少しいじってみました。 
 
■ kakasiの辞書の拡張 
--------------------------------------------------------- 
ソースのアーカイブからテキスト版のkakasidictを持ってきて、秀丸でEUCで開いてEUCの改行LFのみでsaveしなければいけないなど手間がかかります。 
 
mkkanwaでテキストの辞書をバイナリにします。何故か名前はkanwadictです。mkkanwaは単体のコンバート・ユーティリティかと思いましたが、itaijidictを読みに行くのに環境変数をあてにして、カレントにitaijidictを置いておいても見つけてくれません。 
 
新しくできたkanwadictをnamazuの所定のフォルダに上書きコピーします。これでOKかと思って昨日のデータにnamazuをかけてもうまくいきませんでした。よく考えたら新しい辞書でmknmzをやり直さなければいけないのでした。 
 
■ 新しい辞書のチェック 
--------------------------------------------------------- 
「吉野の山」という検索で、今までは「吉野/の/山」と分かれてマッチしていましたが、「よしののやま 吉野の山」という語を辞書に登録したら、ちゃんと一語でマッチしていました。 
 
■ それでもひらがなは・・・ 
--------------------------------------------------------- 
「うぐひす うぐひす」と登録してみましたが、やっぱり「うぐひす」ではマッチしません。「うぐひすの」とか「うぐひす*」とかで検索するとちゃんとマッチします。また「こほれる」などほかのひらがなだとマッチするものもあります。 
 
もともとkakasiは漢字をかなやローマ字にするためのプログラムのようなのでしかたがないのかもしれません。namazu側にはmknmzで-Hという「平仮名のみの単語は登録しない」というオプションがあるところを見ると、もしかすると分かち書きエンジンをChaSenというものにするとできるのかもしれませんが、どうもそこまで追ってゆく気力もありません。 
 
大まかな感想としては、namazuは「とても人気のある検索システムで設置も難しくない」というようなことがどこかのサイトに書かれていましたが、十分面倒でドキュメントもわかりづらいと思いました。

  2001年12月29日(土)   Namazu
昨日のmknmz --helpの件は、非常に処理が遅いだけでした。 
 
Readme.txtに「遅い場合がある」とは書いてあったのですが、まさかhelpを出すのに5分以上かかるとは思っていなかったので、てっきりフリーズかと思ってしまいました。 
 
mknmzのソースを見てみるとコマンドラインのオプションの処理をする前にフィルタの準備をしているようだったので、html.pl以外のフィルタをすべて.pl.tmpに名前を変えてはずしてやると早くなりました。 
 
で、試しに「古今和歌集の部屋」のはじめの10ページ分を対象にしてコマンドラインからnamazuで「藤原」を検索すると 
 
------------------------------------------------------ 
検索結果 
参考ヒット数: [ 藤原: 5 ]  
検索式にマッチする 5 個の文書が見つかりました。 
1. 古今和歌集の部屋 (スコア: 3) 
著者: 不明 
日付: Sat, 29 Dec 2001 17:10:58 
巻一 古今和歌集の部屋 春のはじめによめる 藤原言直 10 春やとき 花やおそきと 聞きわかむ うぐひすだにも 鳴かずもあるかな とき ・・・ 早い 藤原言直(ことなお)については生没年および子細不明。古今和歌集に 
/D|/NTest/uta0010.htm (7,219 bytes) 
(以下略) 
------------------------------------------------------ 
というような感じになりました。なんとなく地味な感じでパッとしません。出力側をカスタマイズしていけばいいのでしょうが・・・ 
 
また、「うぐひす」で検索すると 
------------------------------------------------------ 
検索結果 
参考ヒット数: [ うぐひす: 0 ]  
検索式にマッチする文書はありませんでした。 
------------------------------------------------------ 
となってマッチしません。kakasiの辞書が「うぐひす」などひらがなの単語として持っていないからでしょう。これもkakasiの辞書を再構築すればいいのでしょうが・・・ 
 
ということで、なんとなく興味が薄れてしまいました。 
 
本日の走行距離は7kmでした。寒さに負けています。

  2001年12月28日(金)   VNC
遠隔操作をするVNCというソフトを古いタワーに入れてみました。ネット上で情報を見ていると二年前ぐらいにHotだったもののようです。 
設定項目が少なすぎてとまどいましたが、あまりにも簡単にwin95のデスクトップをw2kから操作できるのにはグッときました。 
 
ということで環境がそろってきたので、win95側にNamazuを入れているところですが、いきなり詰まっています。 
 
mknmz --help が返ってきません。 
 
【今日の日経平均】 10,542 +85