编者按:《透过数字化转型再谈数据中台》系列连载 6-8 篇左右,作者结合自己在数据中台领域多年实践经验,总结了数据架构知识、BI 知识,以及分享给大家一些产业互联网实施经验。本文是系列文章中的第三篇。
在前面两篇 “关于数字化转型的几个见解 ”、“唯一性定理中的数据中台”提到了数据中台发展问题。比如概念发展太快,信息量过载,以及存在广义、狭义的数据中台定义的差别等,涉及到的这些知识都离不开数据架构的范畴,所以这一篇我会通过大数据架构发展的视角来总结与分享。(一些知识继承自己在 2015 年写的《从数据仓库到大数据,数据平台这 25 年是怎样进化的?》,又名我所经历的大数据平台发展史系列),主要涉及三个方面:
-
从数仓架构到大数据架构总共三个时代九种架构的演进
-
自己整理的大数据技术栈
-
最新一代的 Data Mesh 架构的数据平台
数据平台的发展在悄然发生变化
从现在的企业发展来看,大家的诉求重点已经从经营与分析转为数据化的精细运营。在如何做好精细化运营过程中,企业也面临着来自创新、发展、内卷等的各方面压力。 随着业务量、数据量增长,大家对数据粒度需求从之前的高汇总逐渐转为过程化的细粒度明细数据,以及从 T+1 的数据转为近乎实时的数据诉求。
大量的数据需求、海量的临时需求,让分析师、数据开发疲惫不堪。这些职位也变成了企业资源的瓶颈,传统 BI 中的 Report、OLAP 等工具也都无法满足互联网行业个性化的数据需求。大家开始考虑如何把需求固定为一个面向最终用户自助式、半自助的产品,来快速获取数据并分析得到结果,数据通过各类数据产品对外更有针对性的数据价值传递。
(关于数据产品一个题外补充:当总结出的指标、分析方法(模型)、使用流程与工具有机的结合在一起时数据产品就此产生,随着数据中台 &数据平台的建设逐渐的进入快速迭代期,数据产品、数据产品经理这两个词逐渐的升温并逐渐到今天各大公司对数产品经理岗位的旺盛诉求,目前这两方面的方法论也逐步的体系化、具象化)。
在这十几年中,影响数据仓库、数据平台、数据中台、数据湖的演进变革的因素也很多,比如
不断快速迭代的业务模式与膨胀的群体规模所带来的数据量的冲击,新的大数据处理技术的驱动。还有落地在数据中台上各种数据产品的建设,比如工具化数据产品体系、各种自助式的数据产品、平台化各种数据产品的建设。这些数据建设能力的泛化,也让更多的大众参与数据中台的建设中 ,比如一些懂 SQL 的用户以及分析师参与数据平台直接建设比重增加 。还有一些原本数据中台具备的能力也有一些逐步地被前置到业务系统进行处理。
一张图看清楚大数据架构发展
数据仓库在国外发展多年,于大约在 1998-1999 年传入中国。进入中国以后,发展出了很多专有名词,比如数据仓库、数据中心、数据平台、数据中台、数据湖等,从大数据架构角度来看可用三个时代九种架构来做总结,其中前四代是传统数据仓库时代的架构,后面五代是大数据架构模式。
其中有两个承前启后的地方:
-
一个特殊地方是,传统行业第三代架构与大数据第一代架构在架构形式上基本相似。传统行业的第三代架构可以算是用大数据处理技术重新实现了一遍。
-
传统行业第四代的架构中实时部分在现代用大数据实时方式做了新的落地。
如下图所示
三个时代:非互联网、互联网、移动互联网时代,每一种时代的业务特点、数据量、数据类型各不相同,自然数据架构也是有显著差异的。
行业域 |
非互联网 |
互联网 |
移动互联网 |
数据来源(相对于数据平台来讲) |
结构化各类数据库(DB系统)、结构化文本、Excel表格等,少量word |
Web、自定义、系统的日志,各类结构化DB数据、长文本、视频 主要是来自网页 |
除了互联网那些外还含有大量定位数据、自动化传感器、嵌入式设备、自动化设备等 |
数据包含信息 |
CRM客户信息、事务性 ERP/MRPII 数据、资金账务数据 等。 |
除了传统企业数据信息外,还含有用户各类点击日志、社交数据、多媒体、搜索、电邮数据等等 |
除了传统互联网的数据外,还含有Gps、穿戴设备、传感器各类采集数据、自动化传感器采集数据等等 |
数据结构特性 |
几乎都是结构化数据 |
非结构化数据居多 |
非结构化数据居多 |
数据存储/数据量 |
主要以DB结构化存储为主,从几百兆到 百G级别 |
文件形式、DB形式,流方式、 从TB 到PB |
文件形式、流方式、DB范式,非结构化 从TB 到PB |
产生周期 |
慢,几天甚至周为单位 |
秒或更小为单位 |
秒或更小为单位 |
对消费者行为采集与还原 |
粒度粗 |
粒度较细 |
粒度非常细 |
数据价值 |
长期有效 |
随着时间衰减 |
随着时间快速衰减 |
表格源自:《我所经历的大数据平台发展史》
从数据到大数据的数据架构总结
我自己对传统数据仓库的发展,简单抽象为为五个时代、四种架构(或许也不是那么严谨)。
五个时代大概,按照两位数据仓库大师 Ralph kilmball、Bill Innmon 在数据仓库建设理念上碰撞阶段来作为小的分界线:
-
大概在 1991 年之前,数据仓库的实施基本采用全企业集成的模式。
-
大概在 1992 年企业在数据仓库实施基本采用 EDW 的方式,Bill Innmon 博士出版了《如何构建数据仓库》,里面清晰的阐述了 EDW 架构与实施方式。
-
1994-1996 年是数据集市时代,这个时代另外一种维度建模、数据集市的方式较为盛行起来,其主要代表之一 Ralph Kimball 博士出版了他的第一本书“The DataWarehouse Toolkit”(《数据仓库工具箱》),里面非常清晰的定义了数据集市、维度建模。
-
大概在 1996-1997 年左右的两个架构竞争时代。
-
1998-2001 年左右的合并年代。
在主要历史事件中提到了两位经典代表人物:Bill Innmon、Ralph kilmball。这两位在数据界可以算是元祖级别的人物。现在数据中台/平台的很多设计理念依然受到他俩 90 年代所提出方法论为依据。
经典的 BIll Inmon 和 Ralph kilmball 争论
Bill Inmon 提出的遵循的是自上而下的建设原则,Ralph kilmball 提出自下而上的建设原则,两种方法拥护者会在不同场合争论哪一种方法论更有优势。
两位大师对于建设方法争论要点:
-
其中 Bill Inmon 的方法论:认为仅仅有数据集市是不够的,提倡先必须得从企业级的