ElasticSearch-集成ik分词器

武梓龙_Wzill

已于 2023-12-21 19:44:42 修改

阅读量1.7k

点赞数 2

分类专栏：中间件合集文章标签： elasticsearch jenkins 大数据

于 2023-08-25 09:05:46 首次发布

本文链接：https://blog.csdn.net/weixin_45490198/article/details/132487512

版权

中间件合集专栏收录该内容

19 篇文章 17 订阅

订阅专栏

本文介绍了如何在项目中集成Elasticsearch的IK分词器，包括版本选择、优势、下载与安装、分词测试（细粒度和粗粒度）以及代码示例，展示了IK分词器在中文文本处理中的应用和优势。

摘要由CSDN通过智能技术生成

本文已收录于专栏《中间件合集》

背景介绍

我们在项目中集成了ElasticSearch服务之后，需要对内容进行分词处理。这时候就需要用到分词器。其实ElasticSearch服务自身也会带有分词器。ElasticSearch服务自带的分词器是单个字进行分的。在我们的业务当中要求对整个词进行拆分。这时候就用到了ik分词器。ik分词器是词库分词的分词方式。当然根据我们的业务不同还可以选择其他的分词器。

版本选择

优势说明

Elasticsearch的IK分词器是一种流行的中文分词器，它有以下几个优势：

「中文分词」：IK分词器专门用于处理中文文本，能够将连续的中文字符序列切分成有意义的词语。它支持细粒度和智能切分两种分词模式，可以根据需求选择合适的模式。
「高效性能」：IK分词器在分词速度和内存占用方面具有较高的性能。它采用了基于词典的分词算法和N-gram模型，能够快速准确地进行分词处理。
「支持扩展词典」：IK分词器允许用户自定义扩展词典，可以添加特定的词汇，如专业术语、品牌名等，以提高分词的准确性和覆盖范围。
「支持拼音分词」：IK分词器还提供了拼音分词功能，可以将中文文本转换成拼音，并进行分词处理。这对于拼音搜索和拼音排序等场景非常有用。
「多语言支持」：除了中文，IK分词器还支持其他语言的分词处理，如英文、日文等。它可以根据不同的语言特点进行相应的分词处理，提高搜索的准确性和效果。

集成过程

1.下载安装包

ik地址：https://github.com/medcl/elasticsearch-analysis-ik/releases
在这里插入图片描述

2.解压安装包

解压并重命名为IK 将整个文件夹上传到es 中的 plugins 目录中

unzip elasticsearch-analysis-ik-7.6.1.zip

在这里插入图片描述

3.重启ElasticSearch服务

3.1通过ps -ef | grep elastic查看正在启动的es进程号

3.2使用kill -9 xxx 杀死进程

3.3使用 ./elasticsearch 启动es服务

在这里插入图片描述

分词测试

细粒度分词方式

分词请求

POST test002/_analyze?pretty=true

{
"text":"我们是软件工程师",
"tokenizer":"ik_smart"
}

分词结果

{
    "tokens": [
        {
            "token": "我们",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "是",
            "start_offset": 2,
            "end_offset": 3,
            "type": "CN_CHAR",
            "position": 1
        },
        {
            "token": "软件工程",
            "start_offset": 3,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "软件",
            "start_offset": 3,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "工程师",
            "start_offset": 5,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "工程",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 5
        },
        {
            "token": "师",
            "start_offset": 7,
            "end_offset": 8,
            "type": "CN_CHAR",
            "position": 6
        }
    ]
}

粗粒度分词方式

分词请求

POST test002/_analyze?pretty=true

{
"text":"我们是软件工程师",
"tokenizer":"ik_max_word"
}

分词结果

这一次得到了分词的效果：
```json
{
    "tokens": [
        {
            "token": "我们",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "是",
            "start_offset": 2,
            "end_offset": 3,
            "type": "CN_CHAR",
            "position": 1
        },
        {
            "token": "软件",
            "start_offset": 3,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "工程师",
            "start_offset": 5,
            "end_offset": 8,
            "type": "CN_WORD",
            "position": 3
        }
    ]
}

项目中

代码

@Autowired
    private RestHighLevelClient client;

    public void test() throws IOException {
        AnalyzeRequest analyzeRequest = AnalyzeRequest.withGlobalAnalyzer("ik_smart", "武梓龙来写CSDN博客来了");
        AnalyzeResponse analyze = client.indices().analyze(analyzeRequest, RequestOptions.DEFAULT);
        for (AnalyzeResponse.AnalyzeToken token : analyze.getTokens()) {
            System.out.println(token.getTerm());
        }
    }

示例是将一段话进行分词操作，其中withGlobalAnalyzer方法的第一个参数是指定分词器ik_smart分词器(当然也可以使用其他分词器，根据业务的需求进行调整) 是es服务中安装了IK的插件实现的，如果不安装IK分词器的插件ik_smart分词器是无法使用的。第二个参数就是我们分词的内容了。