hbase 写入过程

1.基本原理

hbase客户端通过rpc调用将put、delete数据请求提交到对应的regionserver,regionserver对请求进行处理,并将数据最终写入hfile中,进行持久化保存。
hbase为了保证随机读取的性能,所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后,为了保证写入rowkey的有序性,所以不能将数据立刻写入到hfile中,而是将每个变更操作保存在内存中,也就是metastore中。metastore能够很方便的支持操作的随机插入,并保证所有的操作在内存中是有序的。当metastore达到一定的量之后,会将metastore里面的数据flush到hfile中,这样能充分利用hadoop写入大文件的性能优势,提高写入性能。
由于metastore是存放在内存中,如果regionserver因为某种原因死了,会导致内存中数据丢失。所有为了保证数据不丢失,hbase将更新操作在写入metastore之前会写入到一个write ahead log(WAL)中。WAL文件是追加、顺序写入的,WAL每个regionserver只有一个,同一个regionserver上所有region写入同一个的WAL文件。这样当某个regionserver失败时,可以通过WAL文件,将所有的操作顺序重新加载到metastore中。

2.流程
整个写入顺序图流程如下:

这里写图片描述

  • 客户端查找对应region
    客户端根据要操作rowkey,查找rowkey对应的region。查找region的过程为通过zk获取到hbase:meta表所在region。通过查找hbase:meta可以找到要更新的表每个region的startkey、endkey以及所处机器。由于hbase的rowkey有序分布在region上,所以通过每个region的startkey、endkey可以确定当前要操作rowkey的region信息。
    由于通过zk、hbase:meta查找region信息比较耗时,所以客户端会缓存表的region信息。在请求region失效时,会重新加载表的region信息。
  • regionserver写入WAL文件
    在将操作写入metastore之前,会将操作先写入到WAL文件中。WAL文件的是顺序保存操作记录的,所有每次新操作直接追加到regionserver对应的WAL文件尾部即可。
  • regionserver写入metastore
    将操作写入到WAL之后,hbase会将操作写入到metastore中。在metastore是一个排序的跳跃表,能够保证rowkey按照hfile的顺序进行排序。执行快速查找。
  • regionserver最终flush入hfile
    regionserver将操作写入的hfile不是同步发生的,是需要在metastore的内存达到一定的量(两种情况: 1.metastore的内存达到设置刷新值得90%,2:regionserver上所有region的metastore的内存占用量达到总内存的设置占用量,如0.4)之后,才会将metastore里面所有的操作写入到hfile中。同时会记录已经写入的操作的顺序id,便于WAL的日志清理线程删除WAL中无用日志信息。

参考文章:
hbase写路径

目前这篇文章中没有详细的介绍WAL文件的roll、clean的过程以及metastore的数据格式,接下来文章会详细的这些。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HBase写入过程可以分为以下几个步骤: 1. 客户端将数据写入HBase客户端缓存区 HBase客户端会将数据写入到本地缓存区,也就是写缓存。写缓存是一个内存数据结构,用来存储待写入的数据。写缓存会根据行键和列族进行排序,以便于后续的批量写入和数据合并。 2. 将数据写入到WAL(Write-Ahead-Log)日志 HBase会将客户端的写操作写入到WAL日志中。WAL是一种追加写入的日志,可以保证数据不会丢失。WAL日志是HBase的数据安全保障之一,可以在系统故障时恢复数据。 3. 将数据写入到Memstore缓存 HBase会将客户端的写操作写入到内存中的Memstore缓存中。Memstore是一种内存数据结构,用来缓存写入的数据。Memstore也根据行键和列族进行排序,以便于后续的数据合并。 4. 将Memstore缓存中的数据写入到HFile文件 当Memstore缓存中的数据达到一定的大小时,HBase会将数据写入到磁盘上的HFile文件中。HFile是一种有序的数据文件,可以支持随机访问和范围扫描。 5. 数据合并 当多个Memstore缓存中的数据都写入到了HFile文件中,HBase会对这些数据进行合并。数据合并会将相同行键的数据进行合并,以减少数据冗余和提高查询效率。 6. 刷新数据到RegionServer 当数据合并后,HBase会将数据刷新到对应的RegionServer中。RegionServer是HBase的主要工作节点,负责数据的存储和查询。 总之,HBase写入过程是一个复杂的过程,需要多个组件协同工作,以保证数据的一致性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值