【Elasticsearch】 04-倒排索引、分词过程及查询场景对比

Basililon

已于 2023-07-12 14:08:59 修改

阅读量192

点赞数 2

分类专栏： ES 文章标签： elasticsearch 大数据搜索引擎

于 2023-06-22 23:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44713589/article/details/131314779

版权

ES 专栏收录该内容

12 篇文章 3 订阅

订阅专栏

本文详细介绍了Elasticsearch如何使用倒排索引和分词技术实现高效全文搜索。倒排索引允许快速定位含特定词项的文档，而分词过程包括分割、大小写转换、去除停用词和词干提取等步骤。文章还讨论了不同查询类型（如TermQuery、MatchQuery、PhraseQuery和Multi-termQuery）在执行时的分词行为，以及在不同场景下的适用性。

摘要由CSDN通过智能技术生成

1. 引言

在现代应用程序中，对于处理大量文本数据并实现快速搜索的需求越来越常见。Elasticsearch 是一个流行的分布式搜索和分析引擎，它使用倒排索引和分词技术来实现高效的全文搜索。本文将深入探讨 Elasticsearch 的倒排索引和分词过程，并对不同查询场景下的分词行为进行对比和分析。

2. 什么是倒排索引？

倒排索引（Inverted Index）是一种常用的索引结构，用于快速定位包含特定词项的文档。传统的索引结构是根据文档来查找词项，而倒排索引则是根据词项来查找文档。倒排索引由两部分组成：词项（Term）和包含该词项的文档列表（Posting List）。

举例来说，假设我们有两个文档：

文档1： “Elasticsearch is a powerful search engine.”
文档2： “Elasticsearch is used for data analysis.”

使用倒排索引，我们可以得到以下结果：

词项 “Elasticsearch” 出现在文档1和文档2中。
词项 “is” 出现在文档1和文档2中。
词项 “a” 仅出现在文档1中。
词项 “powerful” 仅出现在文档1中。
词项 “search” 仅出现在文档1中。
词项 “engine” 仅出现在文档1中。
词项 “used” 仅出现在文档2中。
词项 “for” 仅出现在文档2中。
词项 “data” 仅出现在文档2中。
词项 “analysis” 仅出现在文档2中。

通过倒排索引，我们可以快速查找包含特定词项的文档，从而实现高效的全文搜索。

3. Elasticsearch 的分词过程

在将文本数据存储到 Elasticsearch 中之前，会经过分词（Tokenization）过程。分词是将文本拆分成一个个词项的过程，词项即文本的最小单位，可以是单词、数字、符号等。分词过程通常包括以下步骤：

分割：将文本按照空格、标点符号等分割成单词。
大小写转换：将单词转换为统一的大小写形式。
去除停用词：去除常见的无意义词汇，如 “a”、“the” 等。
词干提取：将单词转换为其基本形式，如将 “running” 转换为 “run”。
词项化：将处理后的单词作为词项存储起来。

分词过程的目的是将文本数据转换为可被搜索和索引的词项，以提高搜索的准确性和效率。

4. 查询时是否进行分词

在 Elasticsearch 中，不同类型的查询在执行时是否进行分词是不同的。以下是一些常见的查询类型及其分词行为的说明。

4.1 Term Query

Term Query 是一种精确匹配查询，它会完全匹配指定字段中的一个词项。Term Query 不进行分词，直接与词项进行比较。

示例代码：

GET /index/_search
{
  "query": {
    "term": {
      "field": "value"
    }
  }
}

4.2 Match Query

Match Query 是一种全文搜索查询，它会对查询字符串进行分词，并与指定字段中的词项进行匹配。默认情况下，Match Query 会对查询字符串进行分词。

示例代码：

GET /index/_search
{
  "query": {
    "match": {
      "field": "value"
    }
  }
}

4.3 Phrase Query

Phrase Query 是一种短语匹配查询，它会对查询字符串进行分词，并按照指定顺序匹配词项。默认情况下，Phrase Query 会对查询字符串进行分词。

示例代码：

GET /index/_search
{
  "query": {
    "match_phrase": {
      "field": "value"
    }
  }
}

4.4 Multi-term Query

Multi-term Query 是一种多词项查询，它可以匹配多个词项。Multi-term Query 会对查询字符串进行分词。

示例代码：

GET /index/_search
{
  "query": {
    "terms": {
      "field": ["value1", "value2"]
    }
  }
}

5. 场景对比

在实际应用中，根据不同的查询需求和场景，我们可以选择适合的查询方式。以下是一些常见场景对比：

5.1 全文搜索场景

如果需要对文本进行全文搜索，并找出与查询字符串相关的文档，可以使用 Match Query。Match Query 会对查询字符串进行分词，并与文档中的词项进行匹配。

5.2 精确匹配场景

如果需要精确匹配某个字段中的一个词项，可以使用 Term Query。Term Query 不进行分词，直接与词项进行比较。

5.3 短语匹配场景

如果需要按照指定顺序匹配多个词项，可以使用 Phrase Query。Phrase Query 会对查询字符串进行分词，并按照指定顺序匹配词项。

5.4 多词项查询场景

如果需要匹配多个词项中的任意一个，可以使用 Multi-term Query。Multi-term Query 会对查询字符串进行分词，并匹配多个词项。

根据不同的场景需求，选择合适的查询方式可以提高搜索的准确性和效率。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

目录

分类专栏

架构 1篇
Spring 1篇
ES 12篇
Java 7篇
工具类 4篇
Mac 1篇
杂物 1篇

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。