ES集成中文分词器： IK 3.0

最新推荐文章于 2024-05-15 14:06:45 发布

三水写代码

最新推荐文章于 2024-05-15 14:06:45 发布

阅读量743

点赞数

分类专栏： Elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/zhoushimiao1990/article/details/117400621

版权

Elasticsearch 专栏收录该内容

15 篇文章 18 订阅

订阅专栏

1、集成分词器

IKAnalyzer是一个开源的，基于Java语言开发的轻量级中文分词器工具包，独立于Lucene项目，同事提供了对Lucene的默认优化实现。

IK分词器3.0有下面几个特性：

采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的告诉处理能力
采用了多子处理器分析模式，支持：英文字母（IP、 Email、URL）、数字（日期、常用中文数量词、罗马数字、科学计数法）、中文词汇（姓名、地名处理）等分词处理
支持个人词条优化的词典存储，更小的内存占用
支持用户词典扩展定义
针对lucene全文检索优化的查询分析器IKQueryParser；采用歧义分析算法优化查询关键字的搜索排列组合，极大提高Lucene检索的命中率

下载地址：

<https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.3.0>

安装方式一：下载插件并安装

（1）在elasticsearch的bin目录下执行以下命令,es插件管理器会自动帮我们安装，然后等待安装完成：

/usr/elasticsearch/bin/elasticsearch-plugin install 
https://github.com/medcl/elasticsearch-analysis-
ik/releases/download/v7.3.0/elasticsearch-analysis-ik-7.3.0.zip

（2）下载完成后会提示： Continue with installation? 输入 y ，即可完成安装

（3）重启ES和Kibana

安装方式二：上传安装包安装

（1）在ES安装目录的plugins目录下新建analysis-ik 目录

#新建analysis-ik文件夹
mkdir analysis-ik
#切换至 analysis-ik文件夹下
cd analysis-ik
#上传资料中的 elasticsearch-analysis-ik-7.3.0.zip 
#解压
unzip elasticsearch-analysis-ik-7.3.3.zip
#解压完成后删除zip
rm -rf elasticsearch-analysis-ik-7.3.0.zip

（2）重启 ES 和 Kibana

IK分词器的两种分词模式：ik_max_word 和 ik_smat

ik_max_word 是常用的分词器，会将文本做最细粒度的拆分
ik_smart 会做粗粒度的拆分

我们看一下两种分词对同一个文本的拆分差异：

使用ik_max_work 分词模式：

POST  _analyze
{
  "analyzer": "ik_max_word",
  "text": "南京市长江大桥"
}

运行得到的结果：

{
    "tokens": [{
            "token": "南京市",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "南京",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "市长",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 2
        },
         {
            "token": "长江大桥",
            "start_offset": 3,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "长江",
            "start_offset": 3,
            "end_offset": 5,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "大桥",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 5
        }
    ]
}

使用ik_smart分词模式：

POST  _analyze
{
  "analyzer": "ik_smart",
  "text": "南京市长江大桥"
}

运行得到的结果：

{
    "tokens": [{
            "token": "南京市",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "长江大桥",
            "start_offset": 3,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

如果现在假设江大桥是一个人名，是南京人，那么ik_smart 的拆分明显是不合理的。这种时候我们就需要用到扩展词典。

2、扩展词典使用

扩展词：就是不想让哪些次被分开，让他们必须在一个词里，如上面的江大桥。

自定义扩展词库：

（1）进入到 conﬁg/analysis-ik/(插件命令安装方式) 或 plugins/analysis-ik/conﬁg(安装包安装方式) 目录下, 新增自定义词典

vim lagou_ext_dict.dic

输入：江大桥

（2）将我们自定义的扩展词典文件添加到： IKAnalyzer.cfg.xml配置中

vim IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict">lagou_ext_dict.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords">lagou_stop_dict.dic</entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry 
key="remote_ext_dict">http://192.168.211.130:8080/tag.dic</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

（3）重启ES

3、停用词典的使用

注意这里不是停用上面我们设置的扩展词，而是定义一些停用的词，不让他们作为分词出现，如一些出现频率非常高，但又对文本的语义产生不了多大的影响。如英文中的： a、 an、 the、of 等，还有中文中的：的、了、呢、啊等。将这样的词设为停用词，在分词时被过滤掉，不让他们被进行索引。

自定义停用词库：

（1）进入到config/analysis-ik（插件命令安装方式）或 plugins/ayalysis-ik/config （安转包安装方式）目录下，新增自定义词典：

vim lagou_stop_dict.dic

输入：

的
了
呢

（2）将我们自定义的停用词典添加到IKAnalyzer.cfg.xml配置中（同扩展词库）

（3）重启ES

4、同义词典使用

在语言描述中有很多意思相同的同义词，在搜索时可能会输入它的同义词进行查询，这时就需要我们设置同义词典。如馒头和馍表达的意思相同，那么我们在搜索馒头的时候，应该也要能查询到词为“馍”的文档

注意：扩展词和停用词是在索引的时候使用，而同义词是检索的时候使用

配置IK同义词：

ES自带了一个名为synonym的同义词filter。为了能让IK和synonym同时工作，我们需要定义新的analyzer，用IK做tokenizer， synonym做filter。

（1）创建/config/analysis-ik/synonym.txt文件，输入一些同义词并存储为utf-8格式，如：

西红柿,番茄
馒头,馍
China,中国

（2）创建索引时使用同义词配置

PUT /索引名称
{
    "settings": {
        "analysis": {
            "filter": {
                "word_sync": {
                    "type": "synonym",
                    "synonyms_path": "analysis-ik/synonym.txt"
                }
            },
            "analyzer": {
                "ik_sync_max_word": {
                    "filter": [
                        "word_sync"
                    ],
                    "type": "custom",
                    "tokenizer": "ik_max_word"
                },"ik_sync_smart": {
                    "filter": [
                        "word_sync"
                    ],
                    "type": "custom",
                    "tokenizer": "ik_smart"
                }
            }
        }
    },
    "mappings": {
        "properties": {
            "字段名": {
                "type": "字段类型",
                "analyzer": "ik_sync_smart",
                "search_analyzer": "ik_sync_smart"
            }
        }
    }
}

以上配置定义了ik_sync_max_word和ik_sync_smart这两个新的 analyzer，对应 IK ik_max_word 和 ik_smart 两种分词策略。ik_sync_max_word和 ik_sync_smart都会使用 synonym ﬁlter 实现同义词转换

（3）到此，索引创建模板中同义词配置完成，搜索时指定分词为ik_sync_max_word或ik_sync_smart。

三水写代码

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ES集成中文分词器： IK 3.0

<?xml version="1.0" encod<!DOCTYPE properties SYST<properties><comment>IK Analy<!--用户可以在这里配<entry key="ext_d<!--用户可以在这里
复制链接

扫一扫