没有中文分词器,我们使用es的时候会觉得乐趣少了很多,同时在业务中也有很多不方便的地方,es中对于字符串的默认内置分词是standard类型的,但是这对于中文来说就无能为力了,下面简单介绍一下es中怎么安装IK分词器插件;
1、首先我们需要获取IK分词器的zip包,获取包的步骤如下,
(1)git clone https://github.com/medcl/elasticsearch-analysis-ik
(2)git checkout tags/v6.2.2
(3)mvn package
或者直接去git上下载zip包,然后本地在使用mvn命令打个包即可,
进入解压后的包中看一下,主目录下包含一些插件依赖的外部jar包和一个config文件,
config文件里面的内容是分词器分词时读取文件的主要目录,我们大概说说里面的各文件内容,
- IKAnalyzer.cfg.xml:用来配置自定义词库
- main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起
- quantifier.dic:放了一些单位相