(四)elasticSearch分词器IK

elasticSearch的IK分词器

1、为什么要用IK分词器:

es在创建倒排索引时需要对文档分词;在搜索时,需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。

测试标准分词器对中英文混合的分词效果:
请添加图片描述请添加图片描述不管使用标准分词器还是英文、中文分词器,对中文的分词效果都是不友好的,被分成了一个一个的汉字,这样的分词是不理想的。因为如果输入的是“手机”,那么就分成了“手”和“机”,那么查询记录的时候,输入手机就会把所有包含“手”和“机”的记录都给查询出来。

处理中文分词,一般使用IK分词器。
IK分词器:GitHub网址

2、测试IK分词器:

2.1 IK分词器的两种模式:

ik_smart:最少切分,粗粒度,分词不够细,文档没有那么容易给搜索到,但占用内存少,可以缓存更多的数据,查询效率更高一点。
ik_max_word:最细切分,细粒度,分词够细,文档容易给搜索到,但占用内存大。

2.2 使用ik_smart模式:

请添加图片描述

2.3 使用ik_max_word模式:

请添加图片描述

3、ik分词器的拓展和停用字典:

3.1 背景:

分词器底层应该是依赖于一个字典,但这个字典中的词汇,肯定不可能涵盖我们生活中所有的词汇,而且我们使用了很多新生的词汇,这些词汇在字典中查不到的时候,分词器就会逐个字逐个字的分词,这个时候就需要对分词器进行拓展。但比如“的”这些字眼也会给分词出来,无意义且占空间,所以应该停用这种分词。

3.2 分词器的拓展:

请添加图片描述ext.dic文件需要自己创建,创建的位置:和IKAnalyzer.cfg.xml同个目录下,即config目录下。

3.3 停用字典:

请添加图片描述stopword.dic在config目录下有,无需自己创建。

4、总结:

请添加图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值