HBase的基本概念和术语

HBase – Hadoop Database,是一个高可靠性(HDFS和ZooKeeper保证)、高性能、面向列、可伸缩(通过增加结点实现)、实时读写的分布式数据库。它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务,它主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库) 。

一、HBase表的数据模型

在这里插入图片描述
上图中的HBase表只是一个逻辑上的概念,对于没有存储数据的cell并不占用实际的存储空间。而上图中的一行数据可以表示成下面的json结构:
在这里插入图片描述
从图中可以看出HBase主要包含rowkey、columnfamily、qualifier、timestamp几个部分组成,下面分别解释每个字段的具体含义:

  • RowKey行键(尽量短且长度最好一致,这样效率高)

    • 决定一行数据
    • 按照字典顺序排序的。
    • Row key只能存储64k的字节数据
  • Column Family列族 & qualifier列

    • HBase表中的每个列都归属于某个列族,列族必须作为表模式(schema)定义的一部分预先给出。如create ‘mytesttable’,'colfam1’表示建立一个mytesttable表并建立一个名为colfam1’的列族;
      在这里插入图片描述
    • 列名以列族作为前缀,每个“列族”都可以有多个列成员(column);如colfam1:q1, colfam1:q2, 新的列族成员(列)可以随后按需、动态加入;(一个列族里面存入百万个列也没问题)
      在这里插入图片描述
    • 权限控制、存储以及调优都是在列族层面进行的;
    • HBase把同一列族里面的数据存储在同一目录下 (一般一个列族对应一个store目录

注:列族的个数最好不要超过2~3个(一般一个列族会对应一个memstore);

  • Timestamp时间戳

    • 在HBase每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒序排序,最新的数据版本排在最前面(默认情况下会保留3个版本的数据)。
    • 时间戳的类型是 64位整型。
    • 时间戳可以由HBase在数据写入时自动赋值,此时时间戳是精确到毫秒的当前系统时间。
    • 时间戳也可以由客户显式赋值,如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。(一般不用)。
  • Cell单元格

    • 由行和列的坐标交叉决定;
    • 单元格是有版本的
    • 单元格的内容是未解析的字节数组;
      • 由{rowkey, column( =<family> +<qualifier>), timestamp} 唯一确定的单元里面存储的数据。 cell中的数据是没有类型的,全部是字节码形式存贮。(Hbase中存储的所有内容基本都是字节码形式的)

二、HBase体系架构

在这里插入图片描述
如上图所示用户主要使用Client与Base进行交互,Client主要分为HBase Sell以及Java API两种。

2.1、HBase的主要角色

而一个Base集群的工作需要由ZooKeeper、Master以及RegionServer三者协调完成。Client首先会连接ZooKeeper,而ZooKeeper连接Master,如果没有ZooKeeper,HBase无法启动,ZooKeeper中存储了表的元数据信息。而Master作为调度者,数据放在哪个RegionServer以及哪个Region都由他说了算。而RegionServer用于存放具体的数据。

  • Zookeeper
    • 保证任何时候,集群中只有一个Master(高可用)
    • 存贮所有Region的寻址入口(可以通过ZooKeeper获得hbase:meta表的存储位置,从而获得集群中有的regions信息)
    • 实时监控RegionServer的上线和下线信息,并实时通知Master
    • 存储HBase的schema和table元数据
      在这里插入图片描述

Zookeeper常用命令 https://www.cnblogs.com/linjiqin/p/6029146.html
HBase meta表介绍 https://www.jianshu.com/p/ea7e03cfbfe0

  • Master

    • 为RegionServer分配Region
    • 负责RegionServer的负载均衡
    • 发现失效的RegionServer并重新分配其上的Region(如果RegionServer挂了,将上面的数据移走)
    • 管理用户对table的增删改操作(DDL)
  • HRegionServer

    • RegionServer维护HRegion,处理对这些Region的IO请求(Client与ZooKeeper、Master通信是为了找到数据在哪个Region中,这样Client的IO请求都是要通过RegionServer直接和Region发生的)
    • RegionServer负责切分在运行过程中变得过大的HRegion

2.2、RegionServer上的数据文件

在这里插入图片描述
从图中我们可以看出在存储层面HBase一般处理两种数据:HLog和实际的数据文件。这两种数据文件都是由ReginServer管理的,RegionServer上包含一个HLog和若干个Region。

  • HLog(WAL log) (主要用来做数据恢复的)

    • 一个RegionServer可以包含多个Region,而每个RegionServer中都存有一个HLog,HLog存储了修改删除等信息,目的是为了在数据出错时可以进行数据的恢复。
    • HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是”写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number。
    • HLog SequeceFile的Value是HBase的KeyValue对象,即对应HFile中的KeyValue。
  • HBase存储的实际数据

    • 一个Region中包含多个Store(每个Store对应了一个列族,与此同时一个列族对应一个MemStore)。
    • 一个Store包含了一个MemStore以及多个StoreFile(而相对于HDFS来说即HFile,StoreFile和HFile是一个意思,HFile默认为64KB,主要用于高效加载和缓存数据)
    • 一个Region对应了表的一部分,插数据就是将数据插入到Store中(首先会将数据插入到MemStore的内存中,MemStore存在一个阈值,当超过该阈值的时候,会将文件写入到文件系统中(StoreFile/HFile),当第一次写数据时没有超过MemStore的阈值时就不存在StoreFile),Region也存在一个阈值,如果超过该阈值,Region会分裂成多个Region(此时Master会进行调度,将HRegion放置于多个RegionServer中)
  • Region

    • Region是HBase中分布式存储和负载均衡的最小单元。 最小单元就表示不同的Region可以分布在不同的 RegionServer上。
    • HBase自动把表水平划分成多个区域(Region),每个Region会保存一个表里面某段连续的数据;每个表一开始只有一个Region,随着数据不断插入表,Region不断增大,当增大到一个阀值的时候,Region就会分裂成两个新的Region(裂变);
    • 当table中的行不断增多,就会有越来越多的Region。 这样一张完整的表被保存在多个RegionServer上。
  • Memstore 与 storefile

    • 一个Region由多个store组成,一个store对应一个CF(列族)
    • store包括位于内存中的memstore和位于磁盘上的若干storefile,写操作先写入memstore,当memstore中的数据达到某个阈值,HRegionServer会启动flashcache进程写入storefile,每次写入形成单独的一个storefile(刚产生的storeFile和memstore的阈值一样大)
    • 当storefile文件的数量增长到一定阈值后,系统会进行合并(minor、major compaction),在合并过程中会进行版本合并和删除工作(majar),形成更大的storefile
    • 当一个HRegion所有storefile的大小和超过一定阈值后,会把当前的HRegion分割为两个,并由HMaster分配到相应的HRegionServer服务器,实现负载均衡
    • 客户端检索数据,先在memstore找,找不到再找storefile

参考资料:
1.《HBase权威指南》
2. hbase shell基础和常用命令详解 来自 http://blog.pureisle.net/archives/1887.html

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值