HBase介绍

什么是HBase

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBASE 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。
HBase 是 Google Bigtable 的开源实现,有很多不同之处。比如:Google Bigtable利用 GFS 作为其文件存储系统,HBase 利用 Hadoop HDFS 作为其文件存储系统;Google运行 MAPREDUCE 来处理 Bigtable 中的海量数据,HBase 同样利用 Hadoop MapReduce 来处理HBase中的海量数据;Google Bigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应

HBase特点

  1. 海量存储
    Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,
    能在几十到百毫秒内返回数据。

  2. 列式存储
    Hbase 是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定

  3. 易扩展
    Hbase 的扩展性主要体现在两个方面,一个是基于上层处理能力(RegionServer)的扩展,一个是基于存储的扩展(HDFS)。

  4. 高并发
    由于目前大部分使用 Hbase 的架构,都是采用的廉价 PC,因此单个 IO 的延迟其实并不小,一般在几十到上百 ms 之间。这里说的高并发,主要是在并发的情况下,Hbase 的单个IO 延迟下降并不多。能获得高并发、低延迟的服务

  5. 稀疏
    稀疏主要是针对 Hbase 列的灵活性,在列族中,你可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的

HBase架构

Hbase 由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组件组成,架构图如下:
在这里插入图片描述

  1. Client

    Client 包含了访问 Hbase 的接口,另外 Client 还维护了对应的 cache 来加速 Hbase 的访问

  2. Zookeeper
    HBase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。具体如下:
    通过 Zoopkeeper 来保证集群中只有 1 个 master 在运行,如果 master 异常,会通过竞争机制产生新的 master 提供服务
    通过 Zoopkeeper 来监控 RegionServer 的状态,当 RegionSevrer 有异常的时候,通过回调的形式通知 Master RegionServer 上下线的信息
    通过 Zoopkeeper 存储元数据的统一入口地址

  3. Hmaster
    master 节点的主要职责如下:
    为 RegionServer 分配 Region
    维护整个集群的负载均衡
    维护集群的元数据信息
    发现失效的 Region,并将失效的 Region 分配到正常的 RegionServer 上
    当 RegionSever 失效的时候,协调对应 Hlog 的拆分

  4. HregionServer
    HregionServer 直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如下:
    管理 master 为其分配的 Region
    处理来自客户端的读写请求
    负责和底层 HDFS 的交互,存储数据到 HDFS
    负责 Region 变大以后的拆分
    负责 Storefile 的合并工作

  5. HDFS
    HDFS 为 Hbase 提供最终的底层数据存储服务,同时为 HBase 提供高可用(Hlog 存储在HDFS)的支持,具体功能概括如下:
    提供元数据和表数据的底层分布式存储服务
    数据多副本,保证的高可靠和高可用性

RegionServer中的组件

  1. Write-Ahead logs
    HBase 的修改记录,当对 HBase 读写数据的时候,数据不是直接写进磁盘,它会在内存中保留一段时间(时间以及数据量阈值可以设定)。但把数据保存在内存中可能有更高的概率引起数据丢失,为了解决这个问题,数据会先写在一个叫做 Write-Ahead logfile 的文件中,然后再写入内存中。在系统出现故障的时候,数据可以通过这个日志文件重建。
  2. Region
    Hbase表的分片,HBase表会根据RowKey值被切分成不同的region存储在RegionServer中,在一个 RegionServer 中可以有多个不同的 region。
  3. Store
    数据存储, 包括内存存储(MemStore)和磁盘存储(HFile)
  4. MemStore
    顾名思义,就是内存存储,位于内存中,用来保存当前的数据操作,所以当数据保存在WAL 中之后,RegsionServer 会在内存中存储数据。当数据同步到磁盘(HFile)后清空内存和WAL
  5. HFile
    这是在磁盘上保存原始数据的实际的物理文件,是实际的存储文件。StoreFile 是以 Hfile的形式存储在 HDFS 的
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

catch that elf

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值