参考以下文章把Mecab实现了一遍,还是有几个需要注意的地方,记录下来。
参考文章:
- Mecab安装过程中的一些坑
- 用MeCab打造一套实用的中文分词系统
- 用MeCab打造一套实用的中文分词系统(二)
- 用MeCab打造一套实用的中文分词系统(三):MeCab-Chinese
- 日文分词器 Mecab 文档
安装
安装很简单,Ubuntu使用apt-get命令即可安装(安装命令见本文开头的参考文章1)。
注意,mecab-ipadic 和 mecab-ipadic-utf8 是日文词典和模型,我没有安装。
测试效果
安装完之后,可以直接使用已经训练好的模型和词典测试一下效果。
参考文章3中有下载的百度云链接和密码,直接下载后安装步骤操作即可。
mecab-chinese-data.tar.gz是0.1的版本,文件较小,才13M左右。
参考文章4中有个0.2的版本mecab-chinesedic-binary.tar.gz,也有百度云的下载链接和密码,文件稍大,大概120M左右。
还有一个0.3的版本mecab_chinese_data_binary_v0.3.tar.gz,download:http://pan.baidu.com/s/1sjFXflF password: 62dk,大概120M左右。文章作者在github上的mecab项目readme中有下载链接和密码,地址:https://github.com/panyang/MeCab-Chinese
训练模型
训练模型参考本文的参考文章2,安装作者写的步骤下来就可以了。
需要注意的是,在运行/usr/local/libexec/mecab/mecab-dict-index命令的时候,我安装的mecab目录是/usr/lib/mecab,所以运行命令改为:/usr/lib/mecab/mecab-dict-index,以下命令都类似这样修改即可。
icwb2-data下载地址贴出来:http://sighan.cs.uchicago.edu/bakeoff2005/
github上有作者的Macab项目,地址:https://github.com/panyang/MeCab-Chinese,如果使用该项目下的python脚本处理文件的时候,注意是python2还是python3,以及python脚本是否依赖其他脚本。例如train/v0.2/script下的make_mecab_seed_data.py脚本,依赖了同目录下的langconv.py,使用的时候需要把langconv.py一同拷贝才能正常使用。