由于工作的需要,需要使用到分词工具,结果调研之后发现有专门的日语分词工具可以很好地对日语进行分词,于是记录下来安装和简单的使用测试过程。
首先使用的系统是Mac OSX,python版本是python3.
1. 有直接源码可以安装的,但是为了方便还是使用HomeBrew来进行安装。下面使用HomeBrew进行安装。
$ brew install mecab
$ brew install mecab-ipadic
2. 然后可以直接使用pip安装python接口了。
$ pip install mecab-python3
3. 之后可以在python环境下测试是否安装成功。
>>> import MeCab
如果没有提示则说明安装成功。
下面就可以进行一些简单的使用例子了。
import MeCab
mecab = MeCab.Tagger ("-Ochasen")
sentence = '太郎はこの本を二郎を見た女性に渡した。'
print(mecab.parse(sentence))
太郎 タロウ 太郎 名詞-固有名詞-人名-名
は ハ は 助詞-係助詞
この コノ この 連体詞
本 ホン 本 名詞-一般
を ヲ を 助詞-格助詞-一般
二 ニ 二 名詞-数
郎 ロウ 郎 名詞-一般
を ヲ を 助詞-格助詞-一般
見 ミ 見る 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
女性 ジョセイ 女性 名詞-一般
に ニ に 助詞-格助詞-一般
渡し