一篇就够了(不包含查询)-elasticsearch架构,建模,倒排

最新推荐文章于 2022-12-30 16:07:14 发布

不写是真记不住啊

最新推荐文章于 2022-12-30 16:07:14 发布

阅读量792

点赞数

分类专栏：分布式文章标签： elasticsearch

本文链接：https://blog.csdn.net/weixin_45657738/article/details/114839193

版权

分布式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一. Elasticsearch架构原理

在Elasticsearch内, 主要分为两类节点, 一类是Master, 一类是DataNode.(搭建过HDFS的同学是不是很熟悉)
Master节点
在Elasticsearch启动时，会选举出来一个Master节点。当某个节点启动后，然后使用Zen Discovery机制找到集群中的其他节点，并建立连接。
discovery.seed_hosts: [“192.168.21.130”, “192.168.21.131”, “192.168.21.132”]
并从候选主节点中选举出一个主节点。
cluster.initial_master_nodes: [“node1”, “node2”,“node3”]
Master节点主要负责：
管理索引（创建索引、删除索引）、分配分片
维护元数据
管理集群节点状态
不负责数据写入和查询，比较轻量级
一个Elasticsearch集群中，只有一个Master节点。在生产环境中，内存可以相对小一点，但机器要稳定。
DataNode节点
在Elasticsearch集群中，会有N个DataNode节点。DataNode节点主要负责：
数据写入、数据检索，大部分Elasticsearch的压力都在DataNode节点上
在生产环境中，内存最好配置大一些

二. 分片和副本机制

分片（Shard）
Elasticsearch是一个分布式的搜索引擎，索引的数据也是分成若干部分，分布在不同的服务器节点中
分布在不同服务器节点中的索引数据，就是分片（Shard）。Elasticsearch会自动管理分片，如果发现分片分布不均衡，就会自动迁移
一个索引（index）由多个shard（分片）组成，而分片是分布在不同的服务器上的
副本
为了对Elasticsearch的分片进行容错，假设某个节点不可用，会导致整个索引库都将不可用。所以，需要对分片进行副本容错。每一个分片都会有对应的副本。
在Elasticsearch中，默认创建的索引为1个分片、每个分片有1个主分片和1个副本分片。

每个分片都会有一个Primary Shard（主分片），也会有若干个Replica Shard（副本分片）
Primary Shard和Replica Shard不在同一个节点上

三. Elasticsearch重要工作流程

Elasticsearch文档写入原理
在这里插入图片描述

选择任意一个DataNode发送请求，例如：node2。此时，node2就成为一个coordinating node（协调节点）
计算得到文档要写入的分片
shard = hash(routing) % number_of_primary_shards
routing 是一个可变值，默认是文档的 _id
coordinating node会进行路由，将请求转发给对应的primary shard所在的DataNode（假设primary shard在node1、replica shard在node2）
node1节点上的Primary Shard处理请求，写入数据到索引库中，并将数据同步到Replica shard
Primary Shard和Replica Shard都保存好了文档，返回client

Elasticsearch检索原理
在这里插入图片描述

client发起查询请求，某个DataNode接收到请求，该DataNode就会成为协调节点（Coordinating Node）
协调节点（Coordinating Node）将查询请求广播到每一个数据节点，这些数据节点的分片会处理该查询请求
每个分片进行数据查询，将符合条件的数据放在一个优先队列中，并将这些数据的文档ID、节点信息、分片信息返回给协调节点
协调节点将所有的结果进行汇总，并进行全局排序
协调节点向包含这些文档ID的分片发送get请求，对应的分片将文档数据返回给协调节点，最后协调节点将数据返回给客户端

四. Elasticsearch准实时索引实现

溢写到文件系统缓存
当数据写入到ES分片时，会首先写入到内存中，然后通过内存的buffer生成一个segment，并刷到文件系统缓存中，数据可以被检索（注意不是直接刷到磁盘）
ES中默认1秒，refresh一次
写translog保障容错
在写入到内存中的同时，也会记录translog日志，在refresh期间出现异常，会根据translog来进行数据恢复
等到文件系统缓存中的segment数据都刷到磁盘中，清空translog文件
flush到磁盘
ES默认每隔30分钟会将文件系统缓存的数据刷入到磁盘
segment合并
Segment太多时，ES定期会将多个segment合并成为大的segment，减少索引查询时IO开销，此阶段ES会真正的物理删除（之前执行过的delete的数据）

五. 倒排索引原理

一般来说, 我们使用mysql, 通过某个id去查询数据, 这就是正排索引使用.
所谓倒排, 就是跟正排相反, 我们是通过条数据当中字段的内容去查询数据所在的那一条.

什么是全文检索
全文检索是指：
通过一个程序扫描文本中的每一个单词，针对单词建立索引，并保存该单词在文本中的位置、以及出现的次数
用户查询时，通过之前建立好的索引来查询，将索引中单词对应的文本位置、出现的次数返回给用户，因为有了具体文本的位置，所以就可以将具体内容读取出来了
分词原理之倒排索引

{
“query”:{
“match”:{
“field”:“hello word”
}
}
}
首先, 程序会先将"hello word"分词为 hello word, 然后去索引字典里找到1, 2里有这些数据, 然后再去分片查询想要的数据进行返回.

写在最后

一个分片默认最大文档数量是20亿.
ElasticSearch推荐的最大JVM堆空间是30~32G
一个好的方案是根据你的节点数量按照1.5~3倍的原则来创建分片. 例如,如果你有3个节点, 则推荐你创建的分片数最多不超过9(3x3)个

创建索引时候, 我们需要配置mapping, 用不着索引查询的字段, 要设为index:false, 还有备份的数量(如果查询没有那么高强度可以适当减少备份, 如果查询强度高可以适当加备份), 至于分片的数量, 就可以按照机器的数量去设置, 如果是3台机器, 那么推荐为5~9个分片, 分片过少, 发挥不了分布式检索的优势, 分片过多, 会让文件数量几何增加, 但是文件内容少, 造成查询浪费. 最后 -------- es的服务器一定要硬.

不写是真记不住啊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
一篇就够了(不包含查询)-elasticsearch架构,建模,倒排

一. Elasticsearch架构原理在Elasticsearch内, 主要分为两类节点, 一类是Master, 一类是DataNode.(搭建过HDFS的同学是不是很熟悉)Master节点在Elasticsearch启动时，会选举出来一个Master节点。当某个节点启动后，然后使用Zen Discovery机制找到集群中的其他节点，并建立连接。discovery.seed_hosts: [“192.168.21.130”, “192.168.21.131”, “192.168.21.132”
复制链接

扫一扫

专栏目录