HBase基本原理

HBase以表的形式存储数据。与关系型数据库一样,在HBase中,表由行和列组成。与关系型数据库不同的是,HBase还有“列簇”(column family)的概念。一个表有若干“列簇”组成,每一个“列簇”包含若干列(column)。与此同时,表中的每一个cell都是有时间戳的。因此我们可以把其想象成一个三维数据库。除了行和列之外,还有一个时间维度,每一个单元格(cell)的不同版本都被保存。

与关系型数据库类似,在HBase中每一行都有一个主键(row key)HBase对于数据的检索都是通过row key进行的。HBase对于数据的检索主要有三种方式:

1. 通过单个row key检索一行

2. 通过row key的范围[row key startrow key end]返回多条记录

3. 全表扫描,返回整个table

HBase中,所有的行都按照row key进行排序。在物理上,每一个table都会按照行划分成一个或者多个HRegionHRegion包含了table的一部分,即若干行。HRegion 按大小分割的,每个表一开始只有一个 HRegion,随着数据不断插入表, HRegion 不断增大, 当增大到一个阀值的时候, HRegion 就会等分会两个新的 HRegion。当 table 中的行不断增多,就会有越来越多的HRegionHRegion 是 Hbase 中分布式存储和负载均衡的最小单元。最小单元就表示不同的 HRegion 可以分布在不同的 HRegion server 上。但一个 HRegion 是不会拆分到多个server上的。

HRegion 虽然是分布式存储的最小单元,但并不是存储的最小单元。事实上,HRegion 由一个或者多个 Store 组成,每个 store 保存一个 columns family。每个 Strore 又由一个 memStore 0至多个 StoreFile 组成。 StoreFile 以 HFile 格式保存在 HDFS 上。除了HFile之外,HRegion server还生成另外一个文件——HLog(WAL log),该文件是一个日志文件。WAL 意 为 Write ahead log,类似 于mysql中的 binlog,用来做灾难恢复使用。HLog 记录数据的所有变更。n(来自不同 table)的日志会混在一起。这样做的目的是不断追加单个文件相对于每个 HRegion Server 维护一个 Hlog,而不是每个HRegion 一个。这样不同Regio同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对 table 的写性能。带来的麻烦是,如果一台 region server 下线, 为了恢复其上的 region,需要将 region server 上的 log 进行拆分,然后分发到其它 region server 上进行恢复。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值