GOOGLE分布式数据库技术演进研究--从Bigtable、Dremel到Spanner（一）

最新推荐文章于 2024-03-28 14:31:26 发布

u013427959

最新推荐文章于 2024-03-28 14:31:26 发布

阅读量3.1k

点赞数

分类专栏：大数据文章标签： Bigtable dremel spanner 分布式数据库大数据

本文链接：https://blog.csdn.net/x802796/article/details/18802733

版权

本文探讨谷歌的分布式数据库技术发展，包括Bigtable、Dremel和Spanner。Bigtable作为第一代产品，实现分布式存储和事务管理；Dremel专注于实时海量数据分析；Spanner则引入原子时钟和Paxos协议，解决多表事务一致性。通过对比分析，文章旨在帮助读者理解谷歌分布式数据库技术的关键特性和应用场景。

摘要由CSDN通过智能技术生成

癸巳即将过去，总得点礼物吧，思来想去，觉得写写GOOGLE分布式数据库技术发展情况，以此作为礼物献给自己，聊以自慰，由于时间有限，加之对于GOOGLE的分布式数据库理解也只能盲人摸象，难免有错误之处，敬请谅解。

GOOGLE的分布式数据库系统从BIGTABLE的正式推出后，先后对外发布了Bigtable、Dremel、 Spanner等不同的分布式数据库产品，有的是引入新的设计实现，有的是针对原有的技术进行改进和优化，用于满足不同的GOOGLE的应用场景，支持日益增加的数据量管理要求。

GOOGLE分布式数据库技术，从个人理解看，可以分为三个阶段，第一阶段以Bigtable产品为代表，实现了数据的分布式存储、行数据的事务性管理和较好的扩展性，从存储WEB页面而生，创造性提出了KEY-VALUE这种MAP数据结构，并广泛应用到GOOGLE的各种应用中，与GOOGLE的MapReduce GFS技术搭配，构成了GOOGLE分布式云计算的三架马车，对应开源社区推出HBASE产品，也在近年得到了广泛应用。

第二个阶段以Dremel产品为代表，Dremel产品采用了与Bigtable不同的数据结构，立足实时对于海量数据进行分析，据说在秒级可以完成PB级别的数据分析和处理，可以做是分布式数据库实时处理的杰作，其实时处理能力达到令人惊艳的速度。

第三阶段以Spanner数据库技术为代表，Spanner数据库在可以做到多数据表事务一致性管理，利用原子时钟（TrueTime）和Paxos协议解决了分布式数据库多表事务一致性管理的难题，打破的CAP不可三者兼得的理论神话，使得分布式数据库技术得到了革命性的进步。

严格来讲Dremel与Bigtable和Spanner解决的问题有所不同，Dremel侧重于对应海量数据的实时处理，而Bigtable和Spanner更侧重于传统的关系型数据库支持功能对齐和替换，并不是简单产品替换关系。从GOOGLE的分布式数据库技术的发展历程看，这些技术得以成功推出，有创造性的新锐视角和解决方案，更有其坚持在廉价PC服务器上面构筑海量数据处理系统的理想和情怀，更有起高超的技术实力和团队合作，这些因素的结合，使得技术难关被不断的突破，分布式数据库产品得以大成，这些产品的确值得技术人员去深入学习和体会。

为了更好的对比和分析GOOGLE的分布式数据库技术，本文从Bigtable、Dremel、Spanner数据模型、系统架构、数据查询原理、应用场景进行深入分析，最后对于其特点进行对比，从而使得读者对应GOOGLE的分布式数据库技术有一个初步的认识。

2 BIGTABLE开山壁祖

2.1 Bigtable的数据模型

2.1.1 Bigtable的Key-Value数据结构

Bigtable采用Key-Value数据结构，Key由行关键字、列关键字、时间戳组合而成&#