（四）elasticSearch分词器IK

最新推荐文章于 2024-07-25 11:30:48 发布

方方土^_^

最新推荐文章于 2024-07-25 11:30:48 发布

阅读量1.9k

点赞数

文章标签： es elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44792186/article/details/121451545

版权

elasticSearch的IK分词器

elasticSearch的IK分词器

1、为什么要用IK分词器：

es在创建倒排索引时需要对文档分词；在搜索时，需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。

测试标准分词器对中英文混合的分词效果：
请添加图片描述不管使用标准分词器还是英文、中文分词器，对中文的分词效果都是不友好的，被分成了一个一个的汉字，这样的分词是不理想的。因为如果输入的是“手机”，那么就分成了“手”和“机”，那么查询记录的时候，输入手机就会把所有包含“手”和“机”的记录都给查询出来。

处理中文分词，一般使用IK分词器。
IK分词器：GitHub网址

2、测试IK分词器：

2.1 IK分词器的两种模式：

ik_smart：最少切分，粗粒度，分词不够细，文档没有那么容易给搜索到，但占用内存少，可以缓存更多的数据，查询效率更高一点。
ik_max_word：最细切分，细粒度，分词够细，文档容易给搜索到，但占用内存大。

2.2 使用ik_smart模式：

请添加图片描述

2.3 使用ik_max_word模式：

请添加图片描述

3、ik分词器的拓展和停用字典：

3.1 背景：

分词器底层应该是依赖于一个字典，但这个字典中的词汇，肯定不可能涵盖我们生活中所有的词汇，而且我们使用了很多新生的词汇，这些词汇在字典中查不到的时候，分词器就会逐个字逐个字的分词，这个时候就需要对分词器进行拓展。但比如“的”这些字眼也会给分词出来，无意义且占空间，所以应该停用这种分词。

3.2 分词器的拓展：

请添加图片描述 ext.dic文件需要自己创建，创建的位置：和IKAnalyzer.cfg.xml同个目录下，即config目录下。

3.3 停用字典：

请添加图片描述 stopword.dic在config目录下有，无需自己创建。

4、总结：

请添加图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
（四）elasticSearch分词器IK

elasticSearch的IK分词器1、为什么要用IK分词器：2、测试IK分词器：2.1 IK分词器的两种模式：2.2 使用ik_smart模式：2.3 使用ik_max_word模式：3、ik分词器的拓展和停用字典：3.1 背景：3.2 分词器的拓展：3.3 停用字典：4、总结：elasticSearch的IK分词器1、为什么要用IK分词器：es在创建倒排索引时需要对文档分词；在搜索时，需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。测试标准分词器对中英文混合的分词效果：不管使用.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。