Google和Linkedin的老司机是如何管理海量数据的

最新推荐文章于 2023-09-20 13:30:00 发布

木东居士

最新推荐文章于 2023-09-20 13:30:00 发布

阅读量2.9k

点赞数 4

分类专栏：大数据漫谈大数据文章标签：数据管理 linkedin 海量数据谷歌

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaodedong/article/details/73385660

版权

0x00 前言

本篇分享是元数据管理的内容，主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin在2016年新开源的项目：WhereHows，当然也有笔者的一点理解。

Google的论文整体描述十分详细，可以作为理论来学习，LinkedIn已经开源了一个版本的系统，可以看成最佳实践。两者结合起来，还是很能拓展思路的。

标题有点吸引人眼球的嫌疑，不过内容的确是从这两个大公司对外公布的技术中学到的（掺入不少自己的理解，不是原味的了）。

不太清楚Google和Linkedin真实的系统做成什么样，是不是像Gfs那样自己已经要淘汰了才发表文章出来。不过这个不重要。只要能学到一些新东西就行了。

本文没有具体的实现，只有各种的设计思想。另外，其它数据仓库相关的文章请参考：文章集合

本文讲什么？

本文会围绕Goods来展开，辅助与LinkedIn的WhereHows和笔者的理解。

先整体说明一下Goods是什么？可以这样理解：

Google的数据表太多了，工程师们会生产出很多的数据表，为了更好地管理和复用这些表，Google做了一个数据管理系统

这个系统是一个开放的系统，它会通过类似爬虫的方式定时从各个系统（Hive、Hbase、Mysql）中抓取元数据信息然后存入系统中。并生产表之间的依赖关系。

他和EDM的不同在于，它是来爬各个系统的元数据，然后来汇总。这点很重要，属于一种事后处理。给了工程师更大的开放性。

文章结构

从我的感觉上来讲，元数据系统最经常被质疑的地方有两个：价值和作用。为了突出这两者的重要性，我会单独着重地写。

为什么。元数据系统的价值；
是什么。元数据系统相关的概念；
怎么做。分享一下Google的论文《Goods: Organizing Google’s Datasets》中的内容，只有部分内容；
怎么做。分享一下Linkedin的新开源的项目WhereHows的一些设计。
补充。笔者的一些想法。

0x01 价值何在？

挑战

元数据的存在有它的必要性，我大致做了一个简单的梳理，列出一些和数据相关的挑战。这些其实也是元数据系统的价值所在。

数据问题

如果业务复杂度比较低或者数据量比较小的话，可能就感触不深，不过在Google这种公司来讲，表的数量之大，光是管理表的元数据系统就要做成分布式的。

看一下Google的数据量，是挺大的了。

最低0.47元/天解锁文章

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Google和Linkedin的老司机是如何管理海量数据的

0x00 前言本篇分享是元数据管理的内容，主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin在2016年新开源的项目：WhereHows，当然也有笔者的一点理解。Google的论文整体描述十分详细，可以作为理论来学习，LinkedIn已经开源了一个版本的系统，可以看成最佳实践。两者结合起来，还是很能拓展思
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。