浅谈 Elasticsearch 全文搜索

说起全文搜索,我将分为两个部分来讲下,一个是索引的创建,然后才是搜索(查询)。

一、创建索引

针对不同的字段类型,索引创建的方式也不尽相同,这里主要讲下 text 和 keyword 的两种字段类型区别,如下图:
在这里插入图片描述

类型是否分词描述
text声明为 text 的字段,在被写入 ES 的时候,首选需要对该字段的值进行分词,然后为分词后的结果(你、好、中、国)一一创建对应的索引。
keyword声明为 keyword 的字段,在被写入 ES 的时候,不需要进行分词,直接为该字段的值(你好中国)创建一个对应的索引。

二、查询

索引已经准备就绪,接下来开始讲讲查询。ES 提供了 term、match、match_phrase、query_string 等查询方式,不同的查询方式会对「搜索的关键字」进行相应的处理,如下:

查询方式分词描述
term对「搜索的关键字」不进行分词处理,作为一个整体去找对应的索引,例如:我要搜索 ”你好中国“ ,则需要到索引中去查找与 ”你好中国“ 对应的索引。
match对「搜索的关键字」先进行分词处理,然后到索引中查找与分词的结果相匹配的索引,若有匹配的即可, 不考虑顺序 。例如:我要搜索 “你好中国” ,则先将 “你好中国” 切分为 “你”、“好”、“中”、“国”4 个字,然后到索引中去查找与 “你”、“好”、“中”、“国” 4 个字分别对应的索引。但是,这样不但会将 “你好中国” 搜索出来, 就连 “你好” 、“您好”、“国徽”、“中心” 这样的词语也都搜索出来,因为这些词语中包含了 “你”、“好”、“中”、“国” 这 4 个字中的任意一个或者多个。
match_phrase与 match 类似,但是命中的结果必须包含全部「搜索的关键字」的分词,顺序也要相同且必须是连续的。有了这 3 个条件的限制,我们再要搜索 “你好中国”,像 “你好” 、“您好”、“国徽”、“中心” 这样的词语就都不会被搜索出来了。
query_string与 match 基本相同,唯一的不同点是 query_string 搜索的是全部字段,match 需要指定一个要搜索的字段。

三、分词器

分词器主要在两种情况下会被使用,如下:

  1. 插入文档时,将 text 类型的字段先进行分词处理,然后再插入倒排索引中。
  2. 查询时,先对要查询的 text 类型的输入做分词处理,然后根据分词的结果再去倒排索引中搜索。

所以,针对以上两种情况,我将分词器分成「索引分词器」和「查询分词器」。如果我们想要让 索引 和 查询 使用不同的分词器,ElasticSearch 也是可以支持的,只需要在字段上加上 search_analyzer 参数即可。

对于 ES 在 索引 和 查询 过程中是如何来决定使用哪个分词器处理的,如下:

  1. 在索引时,只会去看字段有没有定义 analyzer,有定义的话就用定义的,没定义就用 ES 默认的分词器。
  2. 在查询时,会先去看字段有没有定义 search_analyzer,如果没有定义,就去看有没有 analyzer,再没有定义,才会去使用 ES 默认的分词器。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cab5

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值