HBase Region原理总结归纳

最新推荐文章于 2025-04-28 14:50:57 发布

闻香识代码

最新推荐文章于 2025-04-28 14:50:57 发布

阅读量2.9k

点赞数 2

分类专栏： hbase hdfs 大数据文章标签： hbase hdfs hadoop 大数据

本文链接：https://blog.csdn.net/xiaohu21/article/details/108335947

版权

本文详细总结了HBase Region的原理，包括环境准备、数据存储概述、Region划分及其在HDFS中的存储形式。重点介绍了Region的分配、Region Server的状态管理，以及Region的拆分、合并和寻址机制。通过对Rowkey的设计讨论，强调了其在查询效率和热点问题上的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HBase Region原理总结

资料来源：

HBase是基于hdfs的一个数据库，也就是本身Hbase的数据存储在hdfs中。默认的，文件会分布式存储在hdfs节点中，并且按照128MB一块进行切分，并且会保存3份
hdfs中数据不适合存储小文件，所以后续需要定期进行文件合并和清理来保证读写效率和性能。
hdfs不支持随机读写，所以为了实现数据库中数据更新，hbase采取的文件追加形式来进行数据随机读写

hbase本质是以key value形式进行存储，如下图所示

key可以看成是row+columnfamily+qualifier+timestamp组合而成，value就是值
根据此前我另外一篇博客，为了提升查询效率，在memstore、block cache、hfile中的索引都是基于rowkey建立的。
这里可以看出，数据查询是基于rowkey进行的，所以rowkey的设计很重要。

rowkey数据可以看出，是按照一定规则进行排序展示的，timestamp是逆序，也就是数据最新数据在最前面。这个是和Version 版本机制有关。也就是存储在hbase中数据划分版本

在hdfs中，hbase文件存储形式
访问hdfs开放出来的网页端：我的地址如下，http://linux100:9870/explorer.html#/hbase/data
查看hdfs中对应hbase表的信息

hdfs dfs -cat /hbase/data/doit/tb_computer_info/58b3bed2479674cb2874f07c5a7d6a2d/cf1/f8fe336766104cd3a5b63c49f976785c_SeqId_4_

在这里插入图片描述
2.