日文分词工具Mecab用于中文分词

最新推荐文章于 2024-05-21 10:09:01 发布

zhzhx0318

最新推荐文章于 2024-05-21 10:09:01 发布

阅读量3.7k

点赞数 1

本文链接：https://blog.csdn.net/zhzhx1204/article/details/78388494

版权

参考以下文章把Mecab实现了一遍，还是有几个需要注意的地方，记录下来。

参考文章：

安装

安装很简单，Ubuntu使用apt-get命令即可安装（安装命令见本文开头的参考文章1）。
注意，mecab-ipadic 和 mecab-ipadic-utf8 是日文词典和模型，我没有安装。

测试效果

安装完之后，可以直接使用已经训练好的模型和词典测试一下效果。
参考文章3中有下载的百度云链接和密码，直接下载后安装步骤操作即可。
mecab-chinese-data.tar.gz是0.1的版本，文件较小，才13M左右。
参考文章4中有个0.2的版本mecab-chinesedic-binary.tar.gz，也有百度云的下载链接和密码，文件稍大，大概120M左右。
还有一个0.3的版本mecab_chinese_data_binary_v0.3.tar.gz，download:http://pan.baidu.com/s/1sjFXflF password: 62dk，大概120M左右。文章作者在github上的mecab项目readme中有下载链接和密码，地址：https://github.com/panyang/MeCab-Chinese

训练模型

训练模型参考本文的参考文章2，安装作者写的步骤下来就可以了。
需要注意的是，在运行/usr/local/libexec/mecab/mecab-dict-index命令的时候，我安装的mecab目录是/usr/lib/mecab，所以运行命令改为：/usr/lib/mecab/mecab-dict-index，以下命令都类似这样修改即可。
icwb2-data下载地址贴出来：http://sighan.cs.uchicago.edu/bakeoff2005/
github上有作者的Macab项目，地址：https://github.com/panyang/MeCab-Chinese，如果使用该项目下的python脚本处理文件的时候，注意是python2还是python3，以及python脚本是否依赖其他脚本。例如train/v0.2/script下的make_mecab_seed_data.py脚本，依赖了同目录下的langconv.py，使用的时候需要把langconv.py一同拷贝才能正常使用。