日文分词工具Mecab用于中文分词

参考以下文章把Mecab实现了一遍,还是有几个需要注意的地方,记录下来。

参考文章:

  1. Mecab安装过程中的一些坑
  2. 用MeCab打造一套实用的中文分词系统
  3. 用MeCab打造一套实用的中文分词系统(二)
  4. 用MeCab打造一套实用的中文分词系统(三):MeCab-Chinese
  5. 日文分词器 Mecab 文档

安装

安装很简单,Ubuntu使用apt-get命令即可安装(安装命令见本文开头的参考文章1)。
注意,mecab-ipadic 和 mecab-ipadic-utf8 是日文词典和模型,我没有安装。

测试效果

安装完之后,可以直接使用已经训练好的模型和词典测试一下效果。
参考文章3中有下载的百度云链接和密码,直接下载后安装步骤操作即可。
mecab-chinese-data.tar.gz是0.1的版本,文件较小,才13M左右。
参考文章4中有个0.2的版本mecab-chinesedic-binary.tar.gz,也有百度云的下载链接和密码,文件稍大,大概120M左右。
还有一个0.3的版本mecab_chinese_data_binary_v0.3.tar.gz,download:http://pan.baidu.com/s/1sjFXflF password: 62dk,大概120M左右。文章作者在github上的mecab项目readme中有下载链接和密码,地址:https://github.com/panyang/MeCab-Chinese

训练模型

训练模型参考本文的参考文章2,安装作者写的步骤下来就可以了。
需要注意的是,在运行/usr/local/libexec/mecab/mecab-dict-index命令的时候,我安装的mecab目录是/usr/lib/mecab,所以运行命令改为:/usr/lib/mecab/mecab-dict-index,以下命令都类似这样修改即可。
icwb2-data下载地址贴出来:http://sighan.cs.uchicago.edu/bakeoff2005/
github上有作者的Macab项目,地址:https://github.com/panyang/MeCab-Chinese,如果使用该项目下的python脚本处理文件的时候,注意是python2还是python3,以及python脚本是否依赖其他脚本。例如train/v0.2/script下的make_mecab_seed_data.py脚本,依赖了同目录下的langconv.py,使用的时候需要把langconv.py一同拷贝才能正常使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值