浅谈 Elasticsearch 全文搜索

最新推荐文章于 2024-07-20 11:36:55 发布

cab5

最新推荐文章于 2024-07-20 11:36:55 发布

阅读量1.1k

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch 自然语言处理

本文链接：https://blog.csdn.net/yangchao1125/article/details/120670255

版权

4 篇文章 0 订阅

订阅专栏

说起全文搜索，我将分为两个部分来讲下，一个是索引的创建，然后才是搜索（查询）。

针对不同的字段类型，索引创建的方式也不尽相同，这里主要讲下 text 和 keyword 的两种字段类型区别，如下图：
在这里插入图片描述

类型	是否分词	描述
text	是	声明为 text 的字段，在被写入 ES 的时候，首选需要对该字段的值进行分词，然后为分词后的结果（你、好、中、国）一一创建对应的索引。
keyword	否	声明为 keyword 的字段，在被写入 ES 的时候，不需要进行分词，直接为该字段的值（你好中国）创建一个对应的索引。

索引已经准备就绪，接下来开始讲讲查询。ES 提供了 term、match、match_phrase、query_string 等查询方式，不同的查询方式会对「搜索的关键字」进行相应的处理，如下：

查询方式	分词	描述
term	否	对「搜索的关键字」不进行分词处理，作为一个整体去找对应的索引，例如：我要搜索 ”你好中国“ ，则需要到索引中去查找与 ”你好中国“ 对应的索引。
match	是	对「搜索的关键字」先进行分词处理，然后到索引中查找与分词的结果相匹配的索引，若有匹配的即可，不考虑顺序。例如：我要搜索 “你好中国” ，则先将 “你好中国” 切分为 “你”、“好”、“中”、“国”4 个字，然后到索引中去查找与 “你”、“好”、“中”、“国” 4 个字分别对应的索引。但是，这样不但会将 “你好中国” 搜索出来，就连 “你好” 、“您好”、“国徽”、“中心” 这样的词语也都搜索出来，因为这些词语中包含了 “你”、“好”、“中”、“国” 这 4 个字中的任意一个或者多个。
match_phrase	是	与 match 类似，但是命中的结果必须包含全部「搜索的关键字」的分词，顺序也要相同且必须是连续的。有了这 3 个条件的限制，我们再要搜索 “你好中国”，像 “你好” 、“您好”、“国徽”、“中心” 这样的词语就都不会被搜索出来了。
query_string	是	与 match 基本相同，唯一的不同点是 query_string 搜索的是全部字段，match 需要指定一个要搜索的字段。

分词器主要在两种情况下会被使用，如下：

所以，针对以上两种情况，我将分词器分成「索引分词器」和「查询分词器」。如果我们想要让索引和查询使用不同的分词器，ElasticSearch 也是可以支持的，只需要在字段上加上 search_analyzer 参数即可。

对于 ES 在索引和查询过程中是如何来决定使用哪个分词器处理的，如下：

关注