elasticsearch中文分词(mmseg)——手动添加词典

elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。

经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。

在咸鱼老婆的虚心指导下,我终于找到了解决办法。

手动添加该词到mmseg的词库中,有两种方法:

1、将该词加入到自带的某个词典中(非停顿词词典),如words-my.dic。

2、新建一个自定义词典,将其放入默认词库文件夹下,注意编码格式为以UTF-8无BOM格式编码。

(注意:如果将elasticsearch部署在集群时,相应的配置文件词典均需修改)

期间,咸鱼老婆一直对我循循善诱的指导,令我茅塞顿开。同时,还不厌其烦的为我拨开我最爱的小桂圆,令我甚是感动。

相信若干年后,回味起解决手动添加词库问题的今晚,仍然会感到一股暖流涌上心头。

重启elasticsearch服务:elasticsearch restart

针对目标文件,重新建立索引,搜索“小时代”,即可查询到目标文件。

最后,再次感谢我亲爱的咸鱼老婆。撒狼黑!!!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值