ElasticSearch安装IK分词器并使用IK分词器和Kibana进行自定义词汇

什么是IK分词器?

分词:把一段中文或者别的划分成一个一个的关键字,我们在搜索的时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如"我爱魏一鹤"会被分成"我",“爱”,“魏”,“一”,“鹤”,这显然是不符合要求的,索引我们需要安装中文分词器IK来解决这个问题
如果要使用中文,建议使用ik分词器
IK提供了两个分词算法,ik_smart和ik_max_world,其中ik_smart为最少切分,ik_max_wold为最细颗粒度划分,一会都会分别来测试

下载IK分词器

下载网址:https://github.com/medcl/elasticsearch-analysis-ik
在这里插入图片描述
下载到本地,放入es插件中即可,这里我在es的plugins目录下创建一个IK目录

在这里插入图片描述
解压缩,目录如下
在这里插入图片描述
然后重启观察ES
注意:没有使用ik分词器插件的时候黑窗口会提示no plugins loaded(没有插件加载)
在这里插入图片描述
我们也可以使用命令(elasticsearch-plugin list)查看es下的全部加载的插件
在这里插入图片描述

elasticsearch-plugin list

在这里插入图片描述
使用KIbana测试IK分词器

打开开发工具台
在这里插入图片描述

ik_smart 最少分词器

分词结果比较少

GET _analyze
{
  "analyzer": "ik_smart",
  "text": "中国共产党"
}

在这里插入图片描述

ik_max_word 颗粒度最细分词器

分词结果比较多,组成各种结果,穷尽词库的可能!
在这里插入图片描述
再看个例子,把我们的句子换成 超级喜欢魏一鹤学习Java
首先看最少分词
在这里插入图片描述
然后是最细颗粒度分词
在这里插入图片描述
问题来了 我们输入超级喜欢魏一鹤学习Java,发现魏一鹤被拆开了,这种需要自己加入到分词器字典中的词如何处理呢?

IK分词器自定义词汇

找到并且打开IKAnalyzer.cfg分词器配置文件
在这里插入图片描述
自己自定义新建一个dic文件,一个dic就算一个字典,ik自带的字典是远远不够用的,我们需要手动去创建字典
在这里插入图片描述
新增字典项内容并且保存
在这里插入图片描述
然后把我们自定义配置的字典加入到配置文件让字典生效
在这里插入图片描述
配置完之后保存,然后重启es,注意观察,在重启es的时候会发现黑窗口已经加载我们自定义的字典weiyihe.dic
在这里插入图片描述
重启kibana,再次测试使用过自定义字典之后魏一鹤是否被分割

不管是哪种分词,魏一鹤都没被分割!说明我们自定义字典配置成功!
在这里插入图片描述
以后需要什么词汇,直接在我们的weiyihe.dic字典中去定义即可使用

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小花皮猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值