3）HBase（原理）

最新推荐文章于 2022-08-30 14:53:30 发布

念达

最新推荐文章于 2022-08-30 14:53:30 发布

阅读量223

点赞数

分类专栏：大数据之HBase

本文链接：https://blog.csdn.net/weixin_44757575/article/details/102730555

版权

大数据之HBase 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

读流程

①客户端先访问Zookeeper，从meta表中读取region（HBase表的分片，RegionServer会根据RowKey的值被切分成不同的region存储在RS中，一个RS可以有多个不同region）所在的位置，
②ZK返回给Client结果（在RS1：hadoop102）
③客户端向RS1请求Rowkey所在的位置
④RS1返回结果（在RS4）
⑤客户端向RS4请求读取数据(先从MemStore找数据，如果没有，再到BlockCache里面读,BlockCache还没有，再到StoreFile上读(为了读取的效率))
⑥RS4返回结果（如果是从StoreFile里面读取的数据，不是直接返回给客户端，而是先写入BlockCache，再返回给客户端）
写流程

1）Client向HregionServer发送写请求；

2）HregionServer将数据写到HLog（write ahead log）。为了数据的持久化和恢复；

3）HregionServer将数据写到内存（MemStore）；

4）反馈Client写成功
Flush
①当超过RS全局MemStore大小达到RS堆内存的40%时，会触发RS全局的flush
②当内存中的数据存活时间达到1小时时会触发flush（RS级别）
③当region中MemStore数据达到阈值时（默认是128M、老版本是64M），将数据刷到硬盘，将内存中的数据删除，同时删除HLog中的历史数据，并将数据存储到HDFS中，在HLog中做标记点；
数据合并过程
①当数据块（StoreFile）达到4块，Hmaster触发合并操作，Region将数据块加载到本地，进行合并
②当合并的数据超过256M，进行拆分，将拆分后的Region分配给不同的HregionServer管理；
③当HregionServer宕机后，将HregionServer上的hlog拆分，然后分配给不同的HregionServer加载，修改.META.；
④注意：HLog会同步到HDFS（将做过标记的数据从磁盘中真正删除）；

念达

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3）HBase（原理）

读流程①客户端先访问Zookeeper，从meta表中读取region（HBase表的分片，RegionServer会根据RowKey的值被切分成不同的region存储在RS中，一个RS可以有多个不同region）所在的位置，②ZK返回给Client结果（在RS1：hadoop102）③客户端向RS1请求Rowkey所在的位置④RS1返回结果（在RS4）⑤客户端向RS4请求读取数据...
复制链接

扫一扫