HBase原理深入解析（二）----HFile与HLog结构解析

最新推荐文章于 2021-05-31 11:17:01 发布

叹了口丶气

最新推荐文章于 2021-05-31 11:17:01 发布

阅读量561

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yexiguafu/article/details/103576424

版权

前言： 上一篇对HBase整体架构做了初步讲解。本篇对其中的涉及到的HFile和HLog进行单独讲解。在HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，格式主要有两种，就是HFile和HLog。

一、HFile

1.1 what ？

HFile是HBase中KeyValue数据的存储格式(这里不要把KeyValue想成Map的那种形式，理解起来会好一点)，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile 。

图1 HFile 结构图

HFile由六部分组成：

Data（数据块）：保存表中的数据（KeyValue的形式），这部分可以被压缩。
Meta （元数据块）：存储用户自定义KeyValue
File Info：定长；记录了文件的一些元信息，例如：AVG_KEY_LEN,AVG_VALUE_LEN, LAST_KEY, COMPARATOR, MAX_SEQ_ID_KEY等
Data Index（数据块索引）：记录了每个Data块的起始索引
Meta Index（元数据块索引）：记录了每个Meta块的起始索引
Trailer：定长；用于指向其他数据块的起始点。

我的理解 ： Trailer中有指向其他数据块的“指针”，通过Trailer能找到File Info，Data Index， Meta Index，然后通过Data Index和 Meta Index又能找到对应的数据块和元数据块。

同时这里有幅图不错，建议认真看下这幅图，很好懂：

图2 HFile 存储格式

1.2 Data结构

1.1节提到HFile中有Data（数据块）部分，Data的结构又是如何的呢？
把图再拿过来：

图3 HFile 结构图

图中的Data由Magic以及后面一串KeyValue组成。Magic内容就是一些随机数字，目的是防止数据损坏。后面的每个KeyValue其实就是一个record，对应图2的HFile Block Record，包含key length, value length, key（字节数组）, value（字节数组）。（Data默认是64KB，我们可以根据需要设置，如果应用主要涉及顺序访问，则设置较大的块大小，不过这会降低随机读性能，因为需要解压缩更多的数据。如果应用主要涉及随机访问，较小的块更有利一些，不过也需要更多的内存存储块索引，并且可能创建过程也会变得更慢。）

1.3 KeyValue结构

下面这幅图是把图3的KeyValue单独抽出来放大后的结构：

图4 KeyValue 结构图

如我们之前所说，他包含了：key length, value length, 紧接着是Key部分：开始是固定长度的数值，表示RowKey的长度，紧接着是 RowKey，然后是固定长度的数值，表示Family的长度，然后是Family，接着是Qualifier，然后是两个固定长度的数值，表示Time Stamp和Key Type（Put/Delete）。Value部分没有这么复杂的结构，就是纯粹的二进制数据了。

举个栗子：
执行这条语句：Put #1: rowkey=row1, cf:attr1=value1。KeyValue的核心部分将会是这样：
rowlength -----------→ 4（row1长度）
row -----------------→ row1
columnfamilylength --→ 2
columnfamily --------→ cf
columnqualifier -----→ attr1
timestamp -----------→ server time of Put
keytype -------------→ Put

HFile分析到这里算是结束了

二、HLog

HLog是用来做灾难恢复的，为什么这么说呢？假设没有HLog，我们进行一个写请求，会首先写到MemStore上，等到Memstore到达一定容量后，才会flush到storefile中。但是如果在这之前主机断电了呢？那这部分操作的数据全丢失了。这显然不是我们想到的结果，于是有了HLog，当发起一个写请求时，会先往HLog中写再往MemStore中写，成功后（此时还没被存到sotrefile）就给客户端一个写入成功的response。如下图：

写HLog过程

    HLog文件就是一个普通的Hadoop Sequence File(也是KeyValue形式，与前面的数据块中的KeyValue类比)，
    Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是“写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。
    HLog Sequece File的Value是HBase的KeyValue对象，即对应HFile中的KeyValue。包括：row，column family, qualifier, timestamp, value，以及“Key Type”（比如PUT或DELETE)

更多HLog的细节可以参考官方文档。这篇文章介绍得也很好http://cloudera.iteye.com/blog/911700

三、总结

本文对HFile和HLog的结构进行了详细介绍。不过并没有注重业务上如何写这两个文件的流程。以后可以阅读源码（以后，我都不信）对HBase有更深入的了解。

HFile文件详解：
http://blog.sina.com.cn/s/blog_78d9681f01013mr0.html
http://www.uml.org.cn/sjjm/201305073.asp

叹了口丶气

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
HBase原理深入解析（二）----HFile与HLog结构解析

前言：上一篇对HBase整体架构做了初步讲解。本篇对其中的涉及到的HFile和HLog进行单独讲解。在HBase中的所有数据文件都存储在Hadoop HDFS文件系统上，格式主要有两种，就是HFile和HLog。一、HFile1.1 what ？HFile是HBase中KeyValue数据的存储格式(这里不要把KeyValue想成Map的那种形式，理解起来会好一点)，HFi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

叹了口丶气 觉得有收获就支持一下吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。