HBase 入门

larry_seven

于 2024-04-30 17:30:34 发布

阅读量804

点赞数 35

文章标签： hbase 数据库大数据

本文链接：https://blog.csdn.net/xl10230/article/details/138328482

版权

本文详细阐述了HBase系统中的客户端、Zookeeper以及HMaster和RegionServer的角色，包括它们之间的交互、数据管理和一致性保障机制。重点介绍了hbase:meta表的作用，以及LSMTree、WAL和MemStore在数据持久化和性能优化中的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

核心概念

Client：是执行查询、写入等对HBase表数据进行增删改查的使用方，可以是使用HBase Client API编写的程序，也可以是其他开发好的HBase客户端应用。

Zookeeper：HBase使用Zookeeper作为集群协调与管理系统。在HBase中其主要的功能与职责为：

存储整个集群HMaster与RegionServer的运行状态
实现HMaster的故障恢复与自动切换
为Client提供元数据表的存储信息

HMaster、RegionServer启动之后将会在Zookeeper上注册并创建节点（/hbasae/master 与 /hbase/rs/*），同时 Zookeeper 通过Heartbeat的心跳机制来维护与监控节点状态，一旦节点丢失心跳，则认为该节点宕机或者下线，将清除该节点在Zookeeper中的注册信息。

当Zookeeper中任一RegionServer节点状态发生变化时，HMaster都会收到通知，并作出相应处理，例如RegionServer宕机，HMaster重新分配Regions至其他RegionServer以保证集群整体可用性。

当HMaster宕机时（Zookeeper监测到心跳超时），Zookeeper中的 /hbasae/master 节点将会消失，同时Zookeeper通知其他备用HMaster节点，重新创建 /hbasae/master 并转化为active master。

除了作为集群中的协调者，Zookeeper还为Client提供了 hbase:meta 表的存储信息。

客户端要访问HBase中的数据，只需要知道Zookeeper集群的连接信息，访问步骤如下：

客户端将从Zookeeper（/hbase/meta-region-server）获得 hbase:meta 表存储在哪个RegionServer，缓存该位置信息。
查询该RegionServer上的 hbase:meta 表数据，查找要操作的 rowkey所在的Region存储在哪个RegionServer中，缓存该位置信息。
在具体的RegionServer上根据rowkey检索该Region数据。

客户端操作数据过程并不需要HMaster的参与，通过Zookeeper间接访问RegionServer来操作数据。第一次请求将会产生3次RPC，之后使用相同的rowkey时客户端将直接使用缓存下来的位置信息，直接访问RegionServer，直至缓存失效（Region失效、迁移等原因）。

hbase:meta表：存储了集群中所有Region的位置信息，从zk路径(/hbase/meta-region-server)获取meta表region，然后读取meta表获取用户数据信息。（旧版本 hbase:-ROOT- 和 hbase:.meta.表：读取流程 client–>Zookeeper(/hbase/root-region-server 获取-ROOT-表region信息)–>-ROOT-表（查询表获取.META.表region信息）–>.META.表（查询表获取用户数据信息）–>RegionServer–>Region ）

HMaster：是一个内部管理者，只对客户端提供DDL操作，因而HMaster的负载是比较低的。当集群中存在多个（两个或者三个以上）HMaster，备用的Master会定期与Active Master通信以获取最新的状态信息，以保证故障切换时自身的数据状态是最新的，因而Active Master可能会收到大量来自备用Master的数据请求，有可能导致HMaster负载较高。