HBase数据倾斜问题

最新推荐文章于 2023-08-07 18:38:59 发布

xiaoxaoyu

最新推荐文章于 2023-08-07 18:38:59 发布

阅读量1.4k

点赞数

分类专栏： HBase 文章标签： hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoxaoyu/article/details/115535793

版权

HBase 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

HBase数据倾斜问题

文章目录

相关知识：

数据存入hbase表时会按照rowkey落在不同的region中，每个region都有边界（除非你只有一个region）startrow和endrow，rowkey在表中是按照ASCⅡ码的字典排序的。

负载均衡：

region被regionserver管理，Hbase可以自动将region balance到各个regionserver上，使得每台regionserver上region的个数均匀分布。当某一个regionserver停止服务，它所管理的region会transit到其他regionserver上。regionserver又重新启动后，balancer会再次自动平衡region。

避免表region分布倾斜

方式1：

默认情况下，hbase的balancer是regionserver级别，与表无关，极端情况下整个每个regionserver下的region个数一样多,但一张表的所有region可能都在一台机器上，这也算是一种数据倾斜，可以通过hbase.master.loadbalance.bytable设置表级别均衡。

<property>
<name>hbase.master.loadbalance.bytable</name>
<value>true</value>
</property>

方式2：

上面描述的Hbase机制保证了region能够均匀的分布在各个节点上，但细化到rowkey粒度就需要我们自己来控制了，Hash、Salt、Reverse。

判断数据分布倾斜的方法：查看在hbase目录下表中文件夹大小，第一列是单备份的大小，第二列是总备份的大小，每个文件夹就对应着一个region。

装入数据后，如果每个文件夹大小都差不多，并在合理的大小范围内，那说明切分的比较好。

如果某个文件夹特别大，就要考虑是否有未想到的数据情况，或是rowkey设计不合理。尤其要注意一些特殊值，比如数据是从关系型数据库抽取而来的，那么要提前做好数据探查，了解生成rowkey用的字段是否有为空或者大量特殊值情况，以避免数据倾斜。

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
HBase数据倾斜问题

HBase数据倾斜问题文章目录相关知识：负载均衡：避免表region分布倾斜方式1：方式2：相关知识：数据存入hbase表时会按照rowkey落在不同的region中，每个region都有边界（除非你只有一个region）startrow和endrow，rowkey在表中是按照ASCⅡ码的字典排序的。负载均衡：region被regionserver管理，Hbase可以自动将region balance到各个regionserver上，使得每台regionserver上region的个数均匀分布。当
复制链接

扫一扫

专栏目录

xiaoxaoyu CSDN认证博客专家 CSDN认证企业博客

码龄4年

144: 原创

3万+: 周排名

168万+: 总排名

17万+: 访问

: 等级

1851: 积分

5380: 粉丝

127: 获赞

66: 评论

530: 收藏

私信

关注

热门文章

分类专栏

实时数仓 1篇
NoSQL 4篇
数据可视化 2篇
Hive 16篇
SQL 14篇
Java高级 15篇
SSM 6篇
设计模式 2篇
sqoop 1篇
HBase 10篇
Flink 2篇
Spark 16篇
Python 6篇
算法 1篇
机器学习 2篇
Kafka 12篇
Scala 10篇
数仓 11篇
Shell 8篇
Flume 3篇
Hadoop 13篇
Maven 1篇
Java基础 14篇
Docker 2篇
Linux 2篇
Zookeeper 1篇

最新评论

SpringBoot连接Oracle
sagiriu: 你这@select是mybatis的吧。。。。
SpringBoot连接Oracle
后端漫漫: 准确来说，oracle是面向用户的，mysql是面向数据库的。oralce只有一个数据库，叫orcl，而mysql有多个数据库。（如有错误，轻点喷）
SpringBoot连接Oracle
♡［纯白记忆］♡: 配置文件中，url最后一个就是数据库名啊，orcl
SpringBoot连接Oracle
中布斯: 不用指定数据库？
SpringBoot连接Oracle
十夫长: 那两个依赖的jar包用哪个？ojdbc6 还是 ojdbc8？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。