elasticsearch 中文分词器 elasticsearch-analysis-ik

一、IK分词器安装

1、下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases ,选择和elasticsearch对应的版本elasticsearch-analysis-ik-5.4.0.zip,下载并解压。

2、在 elasticsearch-5.4.0/plugins/ 目录下新建名为 ik 的文件夹,拷贝elasticsearch-analysis-ik-5.4.0目录下所有的文件到 elasticsearch-5.4.0/plugins/ik/ 目录下,然后重启elasticsearch服务。

3、启动没有报错,并且看到日志信息提示加载了插件 analysis-ik 表示安装成功。

二、扩展本地词库

1、测试 analysis-ik 分词:

http://localhost:9200/_analyze?analyzer=ik_smart&text=洪荒之力
结果:
{
    "tokens": [
        {
            "token": "洪荒",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "之力",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

我们可以看到默认的分词器把“洪荒之力”分成了两个词,如果我们要让分词器把“洪荒之力”分成一个词,我们可以设置本地字典。

2、在 elasticsearch-analysis-ik-5.4.0/config/custom/ 目录下新建文件 hotwords.dic(确保文件的编码方式为UTF-8,不然不生效), 在文件中添加词语“洪荒之力”,每行一个词,然后在ik分词器的配置文件(elasticsearch-analysis-ik-5.4.0/config/IKAnalyzer.cfg.xml)中指定新增的词库位置。然后重启elasticsearch服务器生效词库。

再测试:

http://localhost:9200/_analyze?analyzer=ik_smart&text=洪荒之力
结果:
{
    "tokens": [
        {
            "token": "洪荒之力",
            "start_offset": 0,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 0
        }
    ]
}

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值