[mecab-users 340] 学習用バイナリ辞書の作成について

Back to archive index

M.I kotetu_09****@jcom*****
2008年 10月 14日 (火) 22:24:07 JST


初めまして、池田です。

本体:ML115
CPU:Dual-Core AMD Opteron(tm) Processor 1210
メモリ:2048MB
OS:Fedora7(64bit版)Linux version 2.6.23.17-88.fc7
コンパイラ:gcc version 4.1.2 20070925
バージョン:mecab-0.97 mecab-ipadic-2.7.0-20070801

上記の環境で、学習用バイナリ辞書を作成しようとしたのですが、うまくいきません。 

設定ファイルは以下の通りです。

Adj.csv              Noun.csv               Noun.proper.csv    char.def
Adnominal.csv    Noun.demonst.csv  Noun.verbal.csv     corpus
Adverb.csv         Noun.nai.csv          Others.csv           dicrc
Auxil.csv            Noun.name.csv      Postp-col.csv       feature.def
Conjunction.csv  Noun.number.csv   Postp.csv             rewrite.def
Filler.csv            Noun.org.csv         Prefix.csv             unk.def
Interjection.csv   Noun.others.csv    Suffix.csv
Noun.adjv.csv      Noun.place.csv      Symbol.csv
Noun.adverbal.csv  Verb.csv

ipa-dicから持ってきたものをすべてutf-8に変換し、
右連接状態番号・左連接状態番号・コストを0に、
dicrc の "config-charset = EUC-JP" を "UTF-8" に書き換えたものです。
corpus は、mecabで解析した結果を利用しています。corpusのサイズは試験用に4000kB程度です。

MeCabとipa辞書自体のインストールは、

./configure --prefix=/home/{ユーザ名}/Desktop/mecab-work
                --exec-prefix=/home/{ユーザ名}/Desktop/mecab-work
                 --with-charset=utf-8 --enable-utf8-only
make
make check → 1 of 3 failed
make install

./configure --prefix=/home/{ユーザ名}/Desktop/mecab-work
                --with-mecab-config=/home/{ユーザ名}/Desktop/mecab-work/bin/mecab-config 

                --with-charset=utf-8
make
make install

としてインストールが終わった時点で、mecab自体は正しく動いています。
そして、設定ファイルを用意し、seedフォルダに入って

/home/{ユーザ名}/Desktop/mecab-work/libexec/mecab/mecab-dict-index
                                    -o /home/{ユーザ名}/Desktop/mecab-work/final 


で実行したところ、エラーメッセージを何も出力せずに
動きつづけているように見えます。
finalフォルダ内には、char.bin
また、charsetの変更を行わず、文字コードも変換せずに
EUC-JPで行っても、同様にエラーを吐かずに動き続けてしまいます。

これは何が原因なのでしょうか。また、原因を確かめるにはどうすればいいでしょうか。 

よろしくお願いします。 
-------------- next part --------------
HTMLの添付ファイルを保管しました...
Descargar 


mecab-users メーリングリストの案内
Back to archive index