谈谈ElasticSearch中分词与倒排索引的原理

wupanP

于 2024-08-06 15:17:55 发布

阅读量348

点赞数 4

分类专栏： # ElasticSearch篇文章标签： elasticsearch 大数据搜索引擎

本文链接：https://blog.csdn.net/wupanP/article/details/140956550

版权

5 篇文章 0 订阅

订阅专栏

ElasticSearch 是一个分布式搜索和分析引擎，其高效的搜索性能主要依赖于分词（tokenization）和倒排索引（inverted index）这两个核心技术。

在 ElasticSearch 中，分词通常在索引文档时进行，即在将文档添加到索引之前，先对文档的内容进行分词处理。

英文：一个单词一个词，很简单。I am a student，词与词之间空格分隔。
中文：我是学生，就不能一个字一个字地分，我-是-学生。这是好分的。还有歧义的，使用户放心，使用-户，使-用户。人很容易看出，机器就难多了。所以市面上有各种各样的分词器，一个强调的效率一个强调的准确率。

倒排索引是一种将文档内容中的词与包含这些词的文档进行关联的数据结构。它主要包括两个部分：

具体流程如下：

当一个文档被添加到 ElasticSearch 时，它会经过如下步骤：

当用户发起搜索请求时，ElasticSearch 会：

假设有两个文档：

在分词阶段，两个文档被处理为词列表：

建立的倒排索引如下：

词	                   文档ID
a						[1]
are						[2]
ElasticSearch			[1]
engine					[1]
engines					[2]
important				[2]
is						[1]
search					[1, 2]

当用户搜索 “search engine” 时，ElasticSearch 会：

最终返回相关性最高的文档给用户。

关注

专栏目录