HBase数据倾斜问题

HBase数据倾斜问题

相关知识:

数据存入hbase表时会按照rowkey落在不同的region中,每个region都有边界(除非你只有一个region)startrow和endrow,rowkey在表中是按照ASCⅡ码的字典排序的。

负载均衡:

region被regionserver管理,Hbase可以自动将region balance到各个regionserver上,使得每台regionserver上region的个数均匀分布。当某一个regionserver停止服务,它所管理的region会transit到其他regionserver上。regionserver又重新启动后,balancer会再次自动平衡region。

避免表region分布倾斜

方式1:

默认情况下,hbase的balancer是regionserver级别,与表无关,极端情况下整个每个regionserver下的region个数一样多,但一张表的所有region可能都在一台机器上,这也算是一种数据倾斜,可以通过hbase.master.loadbalance.bytable设置表级别均衡。

<property>
<name>hbase.master.loadbalance.bytable</name>
<value>true</value>
</property>

方式2:

上面描述的Hbase机制保证了region能够均匀的分布在各个节点上,但细化到rowkey粒度就需要我们自己来控制了,Hash、Salt、Reverse。

判断数据分布倾斜的方法:查看在hbase目录下表中文件夹大小,第一列是单备份的大小,第二列是总备份的大小,每个文件夹就对应着一个region。

装入数据后,如果每个文件夹大小都差不多,并在合理的大小范围内,那说明切分的比较好。

如果某个文件夹特别大,就要考虑是否有未想到的数据情况,或是rowkey设计不合理。尤其要注意一些特殊值,比如数据是从关系型数据库抽取而来的,那么要提前做好数据探查,了解生成rowkey用的字段是否有为空或者大量特殊值情况,以避免数据倾斜。

image-20210409025548386

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值