BigTable的数据模型（转）

最新推荐文章于 2024-04-20 09:51:01 发布

wuwangyingzhong

最新推荐文章于 2024-04-20 09:51:01 发布

阅读量700

点赞数

分类专栏：分布式文件存储文章标签： table google 存储 internet stream 服务器

分布式文件存储专栏收录该内容

24 篇文章 0 订阅

订阅专栏

本文将深入分析BigTable的数据模型，并介绍它是如何被调用的。

数据模型

就像向我之前所说的那样，其实BigTable顾名思义，是一个非常大的表，而且是一个能存储几十亿行（Row）和几千列（Column）的非常巨大的表。什么表会怎么大呢？接下来，举一些简单的例子，比如：用于中国所有公民的个人信息和Internet上所有网站内容的表，这些表的总体规模可以达到PB以上级别，而且这些表的规模都会与日增长，所以很显然需要使用分布式的方法，而不是使用一台机器来承载这个巨大且不断增长的Table。首先，会介绍一下BigTable最基本的数据模型，也就是table。

Table

图1. Table

这就是Table（表格），虽然上面截图只有三个Row和五个Column，但由于这个表会存储中国所有公民的个人信息，所以会有十三亿多Row和几百多Column，接下来，将介绍为了提高访问效率和伸缩性的两个特性：Colunm Family（列组）和Tablet（片）。

Column Family

图2. Column Family

由于每个表格都会有成百上千的Column，而大多数查询只需得到其中少数几个Column，所以如果每次查询都将所有的Column取出来的话，这样会得不偿失，所以Google在BigTable的设计中引入了Column Family这个特性，通过这个特性能将多个Column并为一个小组，比如上图的“家庭地址”和“工作地址”都隶属于“地址”这个Column Family，这样做的最大的好处是能将这些Column放在一起存储，这样不仅能提高存取效率，而且能避免读取过多的Column，比如可以选择只读取一个Column Family。

Tablet

图3 Tablet