Hbase2.x源码分析

最新推荐文章于 2022-06-24 14:16:54 发布

中国好胖子、

最新推荐文章于 2022-06-24 14:16:54 发布

阅读量863

点赞数

分类专栏： hbase

本文链接：https://blog.csdn.net/weixin_43704599/article/details/108743048

版权

hbase 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

0. 前言

目前在国内，使用大数据技术的公司，几乎都会使用HDFS这一技术，在这之上有很多的开源产品，例如Hive、Hbase等，今天我们就来研究一下HBase。

什么是HBase？ HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable利用GFS作为其文件存储系统，HBASE利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利用Chubby作为协同服务，HBASE利用Zookeeper作为对应。

那么HBase和传统数据库有什么区别呢？

上图来自 https://developer.ibm.com/zh/articles/ba-cn-bigdata-hbase/

我们可以看得出来，HBase是一个类似 key-value的数据库，也就是说 HBase 适用于结构化的存储。并且 HBase 是一种列式的分布式数据库，是由当年的 Google 公布的 BigTable 的论文而生。不过这里也要注意 HBase 底层依旧依赖 HDFS 来作为其物理存储，这点类似于 Hive。

接下来我们看一下Hbase的架构图

Client：

1、HBase有两张特殊表：
.META.：记录了用户所有表拆分出来的的Region映射信息，.META.可以有多个Regoin
-ROOT-：记录了.META.表的Region信息，-ROOT-只有一个Region，无论如何不会分裂
2、Client访问用户数据前需要首先访问ZooKeeper，找到-ROOT-表的Region所在的服务器位置，然后访
问-ROOT-表，接着访问.META.表，最后才能找到用户数据的服务器位置去访问，中间需要多次网络操作，不
过client端会做cache缓存。

ZooKeeper：

1、ZooKeeper为HBase提供Failover机制，选举Master，避免单点Master单点故障问题
2、存储所有Region的寻址入口：-ROOT-表在哪台服务器上。-ROOT-这张表的位置信息
3、实时监控RegionServer的状态，将RegionServer的上线和下线信息实时通知给Master
4、存储HBase的Schema，包括有哪些Table，每个Table有哪些Column Family

HMaster：

1、为RegionServer分配Region

2、负责RegionServer的负载均衡

3、发现失效的RegionServer并重新分配其上的Region

4、master是管理者，一个hbase系统会有很多表，每个表又有很多region，那么这些region到底交给那些region来管理就是由 master来决定

5、HDFS上的垃圾文件（HBase）回收，region会compact也会split，必然会有失效的数据

6、处理Schema更新请求（表的创建，删除，修改，列簇的增加等等）这些关于schema的数据都是存储在Zookeeper，但是是master是负责更新的如果涉及到表的创建，修改，删除等操作，master宕机了就没法做，但是数据的插入和查询还是可以继续做

RegionServer：

1、RegionServer维护Master分配给它的Region，处理对这些Region的IO请求

2、负责和底层的文件系统HDFS的交互，存储数据到HDFS，每个regionserver内部都有一个客户端（datnaode的代理）。负责把数据写入到HDFS

3、负责Store中的HFile的合并Compact工作 + split工作

4、RegionServer负责Split在运行过程中变得过大的Region，负责Compact操作，SplitPolicy 分割策略：有三个默认的策略