Elasticsearch相关

最新推荐文章于 2024-10-04 10:08:05 发布

yyhgo_

最新推荐文章于 2024-10-04 10:08:05 发布

阅读量1.1k

点赞数

分类专栏：面试文章标签： elasticsearch

本文链接：https://blog.csdn.net/yyhgo_/article/details/129786746

版权

面试专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Elasticsearch是一个基于Lucene的分布式搜索引擎，支持全文检索。倒排索引是其核心机制，用于快速搜索。doc_values用于支持排序和聚合操作，缓解内存压力。text和keyword字段类型分别处理分词和精确匹配。query计算相关度，filter则只判断条件，可被缓存以优化性能。

摘要由CSDN通过智能技术生成

Elasticsearch相关

什么是 Elasticsearch

关系型数据库的 SQL 检索是处理不了非结构化数据的。

Elasticsearch 是基于 Lucene 的分布式实时全文搜索引擎，每个字段都被索引并可被搜索，可以快速存储、搜索、分析海量的数据。

全文检索是指对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当查询时，根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

什么是 Lucene

Lucene 只是一个工具包，它不是一个完整的全文检索引擎。Lucene 的目的是为软件开发人员提供一个简单易用的工具包，以方便在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

什么是倒排索引

在搜索引擎中，每个文档都有对应的文档 ID，文档内容可以表示为一系列关键词的集合，例如，某个文档经过分词，提取了 20 个关键词，而通过倒排索引，可以记录每个关键词在文档中出现的次数和出现位置。也就是说，倒排索引是关键词到文档 ID 的映射，每个关键词都对应着一系列的文件，这些文件中都出现了该关键词。实现时增加了权重…

doc_values 的作用

倒排索引虽然可以提高搜索性能，但也存在缺陷，比如我们需要对数据做排序或聚合等操作时，lucene 会提取所有出现在文档集合的排序字段，然后构建一个排好序的文档集合，而这个步骤是基于内存的，如果排序数据量巨大的话，容易造成内存溢出和性能缓慢。

doc_values 就是 es 在构建倒排索引的同时，会对开启 doc_values 的字段构建一个有序的 “document文档 ==> field value” 的列式存储映射，可以看作是以文档维度，实现了根据指定字段进行排序和聚合的功能，降低对内存的依赖。另外 doc_values 保存在操作系统的磁盘中，当 doc_values 大于节点的可用内存，ES可以从操作系统页缓存中加载或弹出，从而避免发生内存溢出的异常，但如果 doc_values 远小于节点的可用内存，操作系统就自然将所有 doc_values 存于内存中（堆外内存），有助于快速访问。