[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MeCab



おばた ナノですが、

On Mon, 25 Jun 2007 19:10:22 +0900, Takahiro Kambe <taca@back-street.net>  
wrote:

> 真面目にmecabのドキュメントを読むと、
>
> o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
>   で指定できる。(optionで指定できると嬉しいなぁ。)

これしちゃうと、utf-8 option で install したら、Namazu と使えないとか、
いろいろとトラブルの元になるように思えます。

で、

> o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
>   作ることができる。

こんなこともあって、複数のencodingの辞書を用意することもできるんですが、
結局、アプリ側で API に渡すときの encoding を適切に処理するか、
アプリ側で適切な encoding の辞書を選択するように処理すか、になるわけです。

いまどき始めるなら、APIも何もUTF-8でいいじゃないかとも思うのですが、
そういうわけにもいかず。
こういうの扱うときには大量に処理するんで、コード変換なんてしてられない、
っていうような事情もあるでしょうし。

やっぱ、複数encodingの辞書を用意しておく、かなぁ。
Namazu なんかだったら、mecab 呼び出すところで euc-jp な辞書を指定するように
patchを当てておく、?

> あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
> トールした方が良さそうに思います。

これって、HOMEPAGE の内容そのものなんですよね。
ふーん。

> (mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
> けれど、いい記述は思い浮かびません。:-( )

いっそ jumandic を消してしまうとか。
誰か必要かな?

-- 
お役に立てない(^^;
OBATA Akio / obata@lins.jp
せかいは ひろがる ちきゅーは まわる