一文读懂数据平台架构演进历史

最新推荐文章于 2024-09-20 18:30:00 发布

麦聪聊数据

最新推荐文章于 2024-09-20 18:30:00 发布

阅读量457

点赞数 1

分类专栏：数据中台 DaaS 数据管理平台文章标签：数据仓库数据挖掘数据库

原文链接：https://mp.weixin.qq.com/s/C_Xxc7HC7_Fp3S9tZ6YR6A

版权

数据中台同时被 3 个专栏收录

88 篇文章 5 订阅

订阅专栏

DaaS

60 篇文章 0 订阅

订阅专栏

数据管理平台

31 篇文章 0 订阅

订阅专栏

要理解数据网格，先得回顾下数据平台的发展历史，它们的典型代表分别是数据仓库、数据湖及湖仓一体。

微信图片_20221215203644.png
图片

第一代：数据仓库

微信图片_20221215203649.png
图片

1980年代中后期，为解决数据库面对数据分析的不足，孕育出新一类产品数据仓库。让我们先来看下数据仓库的定义，数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策和信息的全局共享。

数据仓库对于数据的处理可分为数据集成（装载）、数据加工（ETL）、数据汇聚、数据展示及挖掘。数据经过这一过程，被抽取到数据仓库中，并严格按照预先定义的模式被装载进来，经过多层加工形成数据集市，并最终提供给终端应用或进一步供挖掘使用，主要场景包括编制报表、发布下游数据集市(Data Marts)，以及支持自助式商业智能等。

第二代：数据湖

微信图片_20221215203654.png
图片

随着数据规模扩大，对数据承载能力（容量、算力）的要求也不断增大，数仓架构的扩展能力面临考验，规模的扩展会面临大量资源的投入，但硬件资源缺乏弹性，会导致高峰时资源不足，低谷时资源闲置浪费问题。针对数据类型，也不再局限于结构化数据，更多半结构化、非结构化数据需要被利用起来，传统的数据仓库架构面临诸多的挑战。

相比于数据仓库，数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施。它就像一个大型仓库，可以存储任何形式（包括结构化和非结构化）和任何格式（包括文本、音频、视频和图像）的原始数据，数据湖通常更大，存储成本也更为廉价。结合先进的数据科学与机器学习技术，能提供预测分析、推荐模型等能力。

数据湖与数据仓库核心区别在于：数据仓库中，数据存储的结构与其定义的schema是强匹配的，也就是先建模再使用，简单点说，数据仓库就像是一个大型图书馆，里面的数据需要按照规范放好，你可以按照类别找到想要的信息，存储在仓库中都是结构化数据，可以直接消费。

而数据湖存储其中的数据不需要满足特定的schema，数据湖也不会尝试去将特定的schema施行其上，任何格式的数据都可以扔进数据湖。数据使用通常会在读取数据的时候解析schema（schema-on-read），当处理相应的数据时，将转换施加其上，也就是说，数据湖对于入湖的数据不做任何规范，只有在于使用时才定义存储格式以便分析使用。

第三代：湖仓一体

微信图片_20221215203659.png
图片

可以看到，数据湖和数据仓库都有各自的优势和不足，但不难发现，二者在某些层面是非常互补的，于是乎，2020年，大数据DataBricks公司首次提出了湖仓一体（Data Lakehouse）概念，希望将数据湖和数据仓库技术合而为一，依据DataBricks公司对Lakehouse 的定义，湖仓一体是一种结合了数据湖和数据仓库优势的新范式，在用于数据湖的低成本存储上，实现与数据仓库中类似的数据结构和数据管理功能。

湖仓一体是一种更开放的新型架构，有人把它做了一个比喻，就类似于在湖边搭建了很多小房子，有的负责数据分析，有的运转机器学习，有的来检索音视频等，至于那些数据源流，都可以从数据湖里轻松获取。