Jieba作为分词器与Elasticsearch集成

 在github上找到相关项目,https://github.com/sing1ee/elasticsearch-jieba-plugin,支持5.X版本的es。

 在165主机上部署的是5.2.2版本的es,下载对应的elasticsearch-jieba-plugin 版本

 支持两种analyzer:

 jieba_index: 用于索引分词,分词粒度较细
 jieba_search: 用于查询分词,分词粒度较粗

1、编译部署

 安装gradle

 项目是使用gradle编译的,在自己电脑上先安装gradle。

 下载gradle安装包 https://downloads.gradle.org/distributions/gradle-4.3-all.zip

  解压到自定义目录,然后配置环境变量即可,测试安装是否成功,执行 gradle -v

  编译项目

gradle pz

部署插件

 编译成功后,拷贝文件 build/distributions/elasticsearch-jieba-plugin-5.1.2.zip到es的plugins目录下

 解压后删除压缩包

unzip elasticsearch-jieba-plugin-5.1.2.zip
rm elasticsearch-jieba-plugin-5.1.2.zip

 最后重启es生效

2、测试jieba分词器

 使用postman通过rest接口测试分词效果

jieba_search

POST  192.168.1.165:9200/jieba_index/_analyze

{
"analyzer":"jieba_search",
"text":"近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢"
}

jieba_index

POST  192.168.1.165:9200/jieba_index/_analyze

{
"analyzer":"jieba_index",
"text":"近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢"
}

3、测试自定义词典

自定义词典以文本形式,命名以.dict结尾,放到plugins/jieba/dic目录下,重启es生效

jieba_search

POST  192.168.1.165:9200/jieba_index/_analyze

{
"analyzer":"jieba_search",
"text":"近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢"
}

jieba_index

POST  192.168.1.165:9200/jieba_index/_analyze

{
"analyzer":"jieba_index",
"text":"近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢"
}

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值