[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: MeCab



In message <op.tug7t6y5csw9i4@pom.lins.jp>
	on Mon, 25 Jun 2007 21:04:44 +0900,
	"OBATA Akio" <obata@lins.jp> wrote:
> > 真面目にmecabのドキュメントを読むと、
> >
> > o 辞書を作成する際は configure ... --with-charset={euc-jp/sjis/utf-8}
> >   で指定できる。(optionで指定できると嬉しいなぁ。)
> 
> これしちゃうと、utf-8 option で install したら、Namazu と使えないとか、
> いろいろとトラブルの元になるように思えます。
うぅむ、確かに。

> で、
> 
> > o mecab-dict-indexで、作った辞書から違う文字エンコーディングの辞書を
> >   作ることができる。
> 
> こんなこともあって、複数のencodingの辞書を用意することもできるんですが、
> 結局、アプリ側で API に渡すときの encoding を適切に処理するか、
> アプリ側で適切な encoding の辞書を選択するように処理すか、になるわけです。
ある意味、もうちっとAPIを改善すべし、ということになるのかなぁ。

> こういうの扱うときには大量に処理するんで、コード変換なんてしてられない、
> っていうような事情もあるでしょうし。
> 
> やっぱ、複数encodingの辞書を用意しておく、かなぁ。
そうですね、

% du -sk
du -sk /usr/pkg/lib/mecab/dic/*
40740   /usr/pkg/lib/mecab/dic/ipadic
58770   /usr/pkg/lib/mecab/dic/jumandic

といった大きさなので、optionで複数のエンコーディングの辞書のインストー
ルを可能にするあたりが現実的そうです。

> Namazu なんかだったら、mecab 呼び出すところで euc-jp な辞書を指定するように
> patchを当てておく、?
Namazuの場合に日本語の処理を行う場合は、locale / LANG環境変数がセット
された状態となりますから、この辺りで攻める手もありそうです。(どの辞書
使うといったあたりも絡みますが、デフォルトを決めといて、変えたい人は
namazurc等で設定して貰うということで。)

> > あと、mecab-baseですけど、オリジナルに含まれているドキュメントもインス
> > トールした方が良さそうに思います。
> 
> これって、HOMEPAGE の内容そのものなんですよね。
> ふーん。
まあ、そうですね。

> > (mecab-ipadicとmecab-jumandicのDESCRやCOMMENTが全く一緒なのも気になる
> > けれど、いい記述は思い浮かびません。:-( )
> 
> いっそ jumandic を消してしまうとか。
> 誰か必要かな?
わかりません。ほんとのユーザに聞かないと。;-p


急いでどうこうできる話では、なさそうです。

-- 
神戸 隆博 / Takahiro Kambe