【ES】--Elasticsearch的分词器深度研究

DreamBoy_W.W.Y

已于 2024-06-14 15:56:56 修改

阅读量1.7k

点赞数 12

分类专栏：大数据/智能文章标签： elasticsearch

于 2024-02-12 15:33:29 首次发布

本文链接：https://blog.csdn.net/xunmengyou1990/article/details/136101406

版权

一、问题描述及分析

面对现实很多复杂情况，默认的ES搜索引擎方式已经不能支持。下面将针对常见的问题进行分析，如何使用ES的分词器达到预定效果。
常见有ik、pinyin、tsconvert三种分词器，
elasticsearch-analysis-ik
elasticsearch-analysis-pinyin
elasticsearch-analysis-stconvert
现有问题场景要求
(1)、对检索结果，要能简繁搜索、特殊符号过滤搜索、中文搜索、英文搜索、中英混搜、中文+全拼、中文+首字母混搜等
(2)、搜索的结果不要太零散(不要把关键词分成一个一个的字)
(3)、不希望搜索的关键词匹配到语气助词
(4)、一些特定的词语（如’中国的炎黄子孙’）不希望被分词，要能够整体匹配
面对上面等问题，分析如下：
(1)、对检索结果，要能同时搜索到简繁体、能搜索到拼音等
—对要搜索的字段进行multi-fields属性设置，使该字段能满足多场景的搜索
(2)、搜索的结果不要太零散(不要把关键词分成一个一个的字)
—ES默认的standard分词器会把汉字分为一个个汉字。ik分词器主要有ik_smart【最少切分，最粗精度】、ik_max_word【最多切分，最细精度】两种模式。
(3)、不希望搜索的关键词匹配到语气助词
—使用“停用词”来过滤掉语气助词。排除停用词可以加快建立索引的速度，减小索引库文件的大小，并且还可以提高查询的准确度。【参考https://blog.csdn.net/qq_29864051/article/details/124831207】
(4)、一些特定的词语（如’中国的炎黄子孙’）不希望被分词，要能够整体匹配
—可以通过对ik分词器添加自定义词典。另外，为了切换实际场景，可以采用“热更新自定义词典”方案。

二、analyze分析器原理

在这里插入图片描述
一个analyzer即分析器包含character filters（字符过滤器）、 tokenizers（分词器）、token filters（令牌过滤器）三个细分模块的包。
character filters（字符过滤器）:用于接收原始文本字符的流，并且可以通过添加，移除，或改变字符来转变原始字符流。可以拥有0个或者多个，按照顺序生效。
tokenizers（分词器）：接收字符流将其分解为单独的 tokens（即单个单词），并输出tokens流。还负责记录每个term的顺序或位置以及该term所代表的原始单词的开始和结束字符偏移量。必须有且只有一个分词器。
token filters（令牌过滤器）：接收令牌流，并且可以添加，删除或改变token。可以有0个或多个，按顺序应用生效。

三、 multi-fields字段支持多场景搜索

从Elasticsearch 5.x开始，multi_fields多字段特性已经被移除。对于Elasticsearch 5.x或更高版本，需要使用不同的方法来定义复合字段，例如使用fields属性直接在普通字段上定义多个字段类型。

3.1、创建索引，并设置multi-fields

创建一个索引
PUT /wwy_test_new_1
创建文档
POST /wwy_test_new_1/_doc/{序号}
在这里插入图片描述
查看分词器如何分词
POST /wwy_test_new_1/_analyze
{
“field”:“words_one.ikIndexAnalyzer”,
“text”:“家书”
}
查询结果
POST /wwy_test_new_1/_doc/_search

给某个字段设置多个属性的fields。如下所示

 "words_one": {
   
          "type": "text",
          "fields": {
   
            "ikIndex": {
   
              "type": "text",
              "analyzer": "ikIndexAnalyzer"
            },
            "ikSearch": {
   
              "type": "text",
              "analyzer": "ikSearchAnalyzer"
            },
            "keyword": {
   
              "type": "keyword",
              "ignore_above": 256,
              "normalizer": "lowercase_normalizer"
            },
            "ngramIndex": {
   
              "type": "text",
              "analyzer":

最低0.47元/天解锁文章

DreamBoy_W.W.Y

关注

12
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
2
评论
【ES】--Elasticsearch的分词器深度研究

分词器是ik_max_word，会将“龙马家书”拆分为“龙马”、“马家”、“家书”。然后filter配置的是edge_ngram_filter，在上面拆分的token词组基础上，按照edge_ngram_filter规则进一步拆分。从结果看：分词器是keyword，filter支持edge_ngram_filter，字符过滤器支持tsconvert【简繁体】。分词器是keyword，表明是不进行分词，但filtet中edge_ngram_filter是按照布长方式拆分token，所以得到如此结果。
复制链接

扫一扫