CentOSにmecab0.994(メカブ)形態素解析をインストール
形態素解析を自力で作ろうといていた今日この頃
助詞でセパレートして、文字種が変わる時、単語で切り分けて
あー、短い助詞の場合うまくいかない
よし、本格的に日本語を勉強だ!
ちょっとまてよ。。。
誰か作ってるんじゃね?
ああ、、、天才がいた。。
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
メカブ本体
#cd /usr/local/src/
#wget http://mecab.googlecode.com/files/mecab-0.994.tar.gz
# tar xvfz mecab-0.994.tar.gz
# cd mecab-0.994
# ./configure --enable-utf8-only
# make
# make check
# make install
# ldconfig
辞書
# cd /usr/local/src/
# wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
# tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz
# cd mecab-ipadic-2.7.0-20070801
# ./configure --with-charset=utf8
# make
# make install
辞書のフォルダ名確認
# cd /usr/local/lib/mecab/dic/
# ls -a
ipadic
OK!
違った場合は
# vi /usr/local/etc/mecabrc
;dicdir = /usr/local/lib/mecab/dic/ipadic
dicdir = /usr/local/lib/mecab/dic/other
Hallo 名詞,固有名詞,組織,*,*,*,*
メカブ 名詞,一般,*,*,*,*,*
EOS
OK!!
おまけ
./configure、に文字コードのオプションつけるの忘れてやりなおし
# make uninstall
# make distclean