hbase的行锁与多版本并发控制(MVCC)

最新推荐文章于 2020-05-30 23:34:56 发布

明星it

最新推荐文章于 2020-05-30 23:34:56 发布

阅读量1.1k

点赞数 1

分类专栏： hbase 文章标签： hbase

hbase 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MVCC (Multiversion Concurrency Control)，即多版本并发控制技术，它使得大部分支持行锁的事务引擎不再单纯的使用行锁来进行数据库的并发控制，取而代之的是，把数据库的行锁与行的多个版本结合起来，只需要很小的开销，就可以实现非锁定读，从而大大提高数据库系统的并发性能。

HBase正是通过行锁+MVCC保证了高效的并发读写。

为什么需要并发控制

HBase系统本身只能保证单行的ACID特性。ACID的含义是：

原子性(Atomicity)
一致性(Consistency)
隔离性(Isolation)
持久性(Durability)

传统的关系型数据库一般都提供了跨越所有数据的ACID特性；为了性能考虑，HBase只提供了基于单行的ACID。

下面是一个hbase并发写的例子。

原始数据如下
mvcc

从Apache HBase Write Path一文可以知道hbase写数据是分为两步：
1. 写Write-Ahead-Log(WAL)文件
2. 写MemStore：将每个cell[(row,column)对]的数据写到内存中的memstore

写写同步

假定对写没有采取并发控制，并考虑以下的顺序：

mvcc

最终得到的结果是：

mvcc

这样就得到了不一致的结果。显然我们需要对并发写操作进行同步。
最简单的方式是提供一个基于行的独占锁来保证对同一行写的独立性。所以写的顺序是：

(0) 获取行锁
(1) 写WAL文件
(2) 更新MemStore：将每个cell写入到memstore
(3) 释放行锁

读写同步

尽管对并发写加了锁，但是对于读呢？见下面的例子：
mvcc

如果在上面的图中红线所示的地方进行读操作，最终得到的结果是：
mvcc

可见需要对读和写也进行并发控制，不然会得到不一致的数据。最简单的方案就是读和写公用一把锁。这样虽然保证了ACID特性，但是读写操作同时抢占锁会互相影响各自的性能。

MVCC算法

HBase采用了MVCC算法来避免读操作去获取行锁。

对于写操作：

(w1) 获取行锁后，每个写操作都立即分配一个写序号
(w2) 写操作在保存每个数据cell时都要带上写序号
(w3) 写操作需要申明以这个写序号来完成本次写操作

对于读操作:

(r1) 每个读操作开始都分配一个读序号，也称为读取点
(r2) 读取点的值是所有的写操作完成序号中的最大整数(所有的写操作完成序号<=读取点)
(r3) 对某个(row,column)的读取操作r来说，结果是满足写序号为“写序号<=读取点这个范围内”的最大整数的所有cell值的组合

在采用MVCC后的数据执行图：
mvcc

注意到采用MVCC算法后，每一次写操作都有一个写序号(即w1步)，每个cell数据写memstore操作都有一个写序号(w2，例如：“Cloudera [wn=1]”))，并且每次写操作完成也是基于这个写序号(w3)。

如果在“Restaurant [wn=2]” 这步之后，“Waiter [wn=2]”这步之前，开始一个读操作。根据规则r1和r2，读的序号为1。根据规则3，读操作以序号1读到的值是：

mvcc

这样就实现了以无锁的方式读取到一致的数据了。

重新总结下MVCC算法下写操作的执行流程：

(0) 获取行锁
(0a) 获取写序号
(1) 写WAL文件
(2) 更新MemStore：将每个cell写入到memstore
(2a) 以写序号完成操作
(3) 释放行锁

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

明星it CSDN认证博客专家 CSDN认证企业博客

码龄13年

29: 原创

10万+: 周排名

123万+: 总排名

29万+: 访问

: 等级

2712: 积分

31: 粉丝

61: 获赞

28: 评论

125: 收藏

私信

关注

热门文章

分类专栏

多线程 1篇
yarn 1篇
mysql 1篇
hadoop系列 22篇
数据库 2篇
ThreadLocal 1篇
jdk 10篇
搜索算法 2篇
apache 3篇
流式计算 2篇
spring 1篇
消息队列 5篇
hbase 3篇
zookeeper 1篇
hive 9篇
mongodb 1篇
kylin 1篇
spark 2篇
linux 3篇
sqoop 1篇
任务调度 1篇
scala 1篇

最新评论

hdfs的acl权限控制
R&Y: 感谢🙏
kafka的groupid
lryepoch: “只要将group.id换成全新的，不论"auto.offset.reset”是否设置，设置成什么，都会从最新的位置开始消费”这句话是不是和前面场景一和场景二的说法自相矛盾了？
mapreduce处理中文输入和输出
m0_48686247: 那如果mapreduce的cache缓存hdfs文件中文有乱码该怎么解决呢，这个读取是fs读取的
记录ResourceManager选主失败的一次case
Aaronoooooo: 大佬的公众号已经没有营业了吗
kafka的groupid
炒面_大叔: 第一点，作者的意思是只要groupid是最新的这一点满足就够了，不管有没有设置properties.setProperty("auto.offset.reset", "latest”) ，都能从最新的offset开始消费。第二点则是说需要groupid是最新的，而且设置properties.setProperty("auto.offset.reset", "earliest”)

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。