ElasticSearch核心概念

最新推荐文章于 2022-07-27 10:45:47 发布

智由静生

最新推荐文章于 2022-07-27 10:45:47 发布

阅读量411

点赞数

文章标签： java elasticsearch

本文链接：https://blog.csdn.net/zsh2050/article/details/115187193

版权

本文介绍了Elasticsearch的基础概念，包括文档作为数据的基本单元，索引的逻辑与物理分布，以及关键组件如分片和倒排索引的作用。探讨了DynamicMapping和查询过滤的区别，以及如何优化搜索性能。

摘要由CSDN通过智能技术生成

ElasticSearch简称ES，是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎，能够达到实时搜索，稳定，可靠，快速，安装使用方便。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎。本文介绍Elasticsearch的一些核心概念。

一.文档（Document）

1.ElasticSearch是面向文档的，文档是所有可搜索数据的最小单位；
2.文档会被序列化成json格式，保存在es中。json数据由字段组成，每个字段都有对应的类型；
3.每个文档都有一个Unique ID，可以自己指定，也可由ES自动生成。

二.索引（Index）

1.索引是文档的容器，是一类文档的结合。Index体现了逻辑空间的概念，每个索引都有自己的Mapping定义，用于定义文档的字段名和字段类型以及字段使用的Analyzer等。Mapping会把JSON文档映射成lucene所需要的扁平格式。
2.索引中的数据是分散在分片shard上的，shard体现了物理空间的概念，索引的Setting定义了索引中的数据的分布。
3.索引名字必须是全部小写，不能以下划线开头，不能包含逗号。

下图把ElasticSearch与我们熟悉的RDBMS进行了一下类比，方便理解。注意：ElasticSearch7.0之后一个index只能有一个type。

三.集群

每个ElasticSearch节点启动后，默认就是一个master eligible节点，可以参加选主，有可能成为master节点。第一个节点启动时，会选举自己成为master节点。每个节点都保存了集群的状态，只有master节点才能修改集群的状态信息。集群状态（cluster state）维护了：所有节点的信息、所有索引及相关Mapping和Setting信息、分片的路由信息。

我们能够与集群中的任何节点通信，包括主节点。每一个节点都知道文档存在于哪个节点上，它们可以转发请求到相应的节点上。我们访问的节点负责收集各节点返回的数据，最后一起返回给客户端。

四.分片（shard）

一个分片(shard)是一个最小级别“工作单元(worker unit)”,它只是保存了索引中所有数据的一部分。一个分片就是一个运行的Lucene实例。
主分片（Primary Shard）,用以解决数据水平扩展问题。通过主分片，可以将数据分布到多个节点上。主分片数在索引创建时指定，后续不允许修改，除非Reindex。
副本分片（Replica Shard）只是主分片的一个副本，它可以防止硬件故障导致的数据丢失，以实现高可用，同时可以提供读请求。副本分片是可以动态调整的，增加副本数，可以提高服务的读取吞吐量。但副本分片设置过多，会降低集群的写入性能。

主分片数是在索引创建时预先设定的，并且事后无法更改，所以生产环境需要提前做好容量规划。
分片数设置过小，会使后续无法增加节点实现水平扩展，同时可能导致单个分片的数据量过大。
分片数设置过大，则影响搜素结果的相关性打分，影响统计结果的准确性。同时单个节点上过多的分片，会导致资源浪费，也会影响性能。

当集群中某个节点宕机，集群将其它节点上的对应副本分片升级为主分片，并尽量重新分配丢失的复制分片。

五.倒排索引

倒排索引其实是Lucene的概念，包含两个部分：单词词典、倒排列表
单词词典（Term Dictionary），记录所有文档的单词，以及单词到倒排列表的关联关系。单词词典一般比较大，可以通过B+树或哈希拉链法实现，以满足高性能插入与查询
倒排列表（Posting List）记录了单词对应的文档结合，由倒排索引项（Posting ）组成。倒排索引项由文档ID、词频TF、位置（Position）和偏移（Offset）组成。偏移是记录单词的开始结束位置，可实现高亮显示。

六.Dynamic Mapping

在写入文档时，如果索引不存在。会自动创建索引，这就是Dynamic Mapping机制，它使得我们无需手动定义Mapping。elasticsearch会根据文档信息，推算出字段的类型。当然有时会推算不准，导致一些功能不正常，比如Range查询。
可以设置Mapping的dynamic属性，可以设置为“true”,“false”和“strict”，默认是“true”。当设为“false”时，新数据写入可以被索引，但新增字段被丢弃。当设为“strict”时，数据写入直接报错。

七.Term查询

Term是表达语义的最小单位。搜索和利用统计语言模型进行自然语言处理都需要用到Term。在ES中，Term查询，对输入不做分词。会将输入作为一个整体，在倒排索引中查找准确的词项，并且使用相关度算分公式为每个包含改词项的文档进行相关度算分。Term查询是包含，不是完全相等，针对多值字段查询要尤其注意。虽然Term查询，对输入不做分词，但es中的数据是进行分词处理后保存的。es对于text字段默认会增加一个keyword的多字段属性，该字段在写入时不会做分词处理，可以用来做严格匹配的查询。term查询很多时候是不需要算分的，可以通过Constant Score将查询转换成一个Filter，避免算分，并利用缓存，提高新能。

八.分析(analysis)

分析(analysis)是这样一个过程：
1.首先字符串经过字符过滤器(character filter)，它们的工作是在标记化前处理字符串。字符过滤器能够去除HTML标记，或者转换 "&" 为 "and" 。
2.标记化一个文本块为适用于倒排索引单独的词(term)
3.然后标准化这些词为标准形式，提高它们的“可搜索性”或“查全率”

Text类型字段index 参数默认值是 analyzed 。如果我们想映射字段为确切值，我们需要设置它为 not_analyzed。其他简单类型（long 、 double 、 date 等等）也接受 index 参数，但相应的值只能是 no 和 not_analyzed ，它们的值不能被分析。
注意对 analyzed 字段进行强制排序会消耗大量内存。

九.查询与过滤

使用过滤语句得到的结果集 -- 一个简单的文档列表，快速匹配运算并存入内存是十分方便的，每个文档仅需要1个字节。这些缓存的过滤结果集与后续请求的结合使用是非常高效的。查询语句不仅要查找相匹配的文档，还需要计算每个文档的相关性，所以一般来说查询语句要比过滤语句更耗时，并且查询结果也不可缓存。原则上来说，做全文本搜索或其他需要进行相关性评分的时候使用查询语句，剩下的全部用过滤语句。特别是做精确匹配搜索时，最好用过滤语句，因为过滤语句可以缓存数据。查询语句可以包含过滤子句，反之亦然。