HBase 表结构逻辑视图

1、HBase 表结构

HBase 以表的形式存储数据。表由行和列组成。列划分为若干个列簇 (Column Family)。
在这里插入图片描述

2、行键(RowKey)

与 NoSQL 数据库们一样,rowkey 是用来检索记录的主键。访问 HBase Table 中的行,只有三种方式:
**
(1)通过单个 row key 访问;
(2)通过 row key 的 range;
(3)全表扫描。
**
rowkey 行键可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),最好是 16。在 HBase 内部,rowkey 保存为字节数组。HBase 会对表中的数据按照 rowkey 排序(字典顺序)。

存储时,数据按照 rowkey 的字典序(byte order)排序存储。设计 key 时,要充分利用排序存储这个特性,将经常一起读取的行存储放到一起。(位置相关性)

注意:
字典序对 int 排序的结果是:
1,10,100,11,12,13,14,15,16,17,18,19,2,20,21…9,91,92,93,94,95,96,97,98,99。
要保持整形的自然序,行键必须用 0 作左填充:
01,02,03,…,09,10,11,…,99。

行的一次读写是原子操作(不论一次读写多少列)。这个设计决策能够使用户很容易的理解程序在对同一个行进行并发更新操作时的行为。

3、列簇(Column Family)

HBase 表中的每个列,都归属与某个列簇。列簇是表的 Schema(元数据) 的一部分(而列不是),必须在使用表之前定义好,而且定义好了之后就不能更改。列名都以列簇作为前缀。例如 courses:history,courses:math 都属于 courses 这个列簇。

访问控制、磁盘和内存的使用统计等都是在列簇层面进行的。

列簇越多,在取一行数据时所要参与 IO、搜寻的文件就越多,所以,如果没有必要,不要设置太多的列簇(最好就一个列簇)。

4、时间戳(TimeStamp)

HBase 中通过 rowkey 和 columns 确定的为一个存储单元称为 cell。
每个 cell 都保存着同一份数据的多个版本。版本通过时间戳来做索引。
时间戳的类型是 64 位整型。时间戳可以由 hbase(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由
客户显式赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。
每个 cell 中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担,hbase 提供了两种数据版本回收方式:
(1)保存数据的最后 n 个版本。
(2)保存最近一段时间内的版本(设置数据的生命周期 TTL)。

用户可以针对每个列簇进行设置。

5、单元格(Cell)

单元格(Cell)是由 {rowkey, column( = + ), version} 唯一确定的单元。
Cell 中的数据是没有类型的,全部是字节码形式存贮。

6、学习内容

上一节学习内容:HBase 数据库介绍
下一节学习内容:HBase 和 Hive 的比较

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值