数据存储之HBase的RowKey设计

HBase的RowKey设计需要根据具体的数据进行设计,一般来说需要依据的设计原则有三个:

  1. 长度原则:避免没有必要的资源消耗
  2. 散列原则:避免热点问题,也是RowKey设计主要考虑的地方
  3. 唯一原则:保证RowKey不重复

RowKey长度原则

RowKey的长度一般设计为定长,越短越好。如果RowKey设计得过长容易引发以下问题:

 第一、RowKey太长容易过多占用memorystore和磁盘空间,导致我们需要存储的数据使用的资源减少 
 
 第二、RowKey过长Client缓存元数据的条数会变少,导致需要频繁请求读取元数据

RowKey散列原则

如果单纯使用时间或有规律的字符串作为RowKey,往往容易使资源集中存储在单个或少数几个RegionServer中,在大量数据需要被访问时,单个RegionServer响应不过来,就会造成检索效率降低。所以在设计RowKey时,我们常常使用一些方法将RowKey尽量均匀的分布在每一个RegionServer中,具体的方法列举以下几个:

1.预分区+加盐
不设置预分区就默认只有一个region,我们可以在建表时设置预分区,并指定每个region的rowkey范围。
所谓加盐,就是给rowkey添加随机数前缀,预分区时就将产生随机数的范围按照每个region平均划分,使每个rowkey对应的数据去到每个region的概率一样

2.字符串反转
将时间或者数字等前面不改变后面几位经常改变的rowkey进行反正,使这种大量连续的rowkey不会被分到同一个region中

3.hash
哈希会使同一行永远用一个前缀散列。哈希也可以使负载分散到整个集群,但是读却是可以预测的。
使用确定的哈希可以让客户端重构完整的rowkey,可以使用get操作准确获取某一个行数据

RowKey唯一原则

每条数据的RowKey不能重复

RowKey是每一条数据的唯一标志,Hbase检索数据只能通过三种方式:
第一、单个rowkey检索
第二、rowkey range检索
第三、全表检索
所以我们必须保证rowkey设计时的唯一性
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值