第8章 大数据领域建模综述
一句话评论:历经三个阶段,阿里巴巴以维度建模为核心方法论,拥抱Hadoop等分布式平台,构建起统一化的集团数据整合及管理方法体系——OneDATA。
- 数据模型:数据组织和存储方法,强调从业务、数据存取和使用角度合理地存储数据。数据与数据模型的关系类似于图书馆与图书的关系。
- 关系型数据库的鼻祖:E.F.Codd --> 在分布式方面有飞速发展 Hadoop/Spark/阿里巴巴的MaxCompute等都是基于关系数据库理论。
- OLTP :随机读写,主要解决数据冗余和一致性问题,采用满足 3NF的实体关系模型(ER)来存储数据。
- OLAP:批量读写,主要解决数据整合,复杂大数据查询和处理的性能,因此采用的模型不一定是ER。
1 典型的数据仓库建模方法论
- (1)ER 模型: 高层模型–>中层模型–>物理模型
- (2)维度模型: 快速完成需求分析,星形模型+雪花模型
- (3)Data Vault 模型: 是ER的延伸,Hub+Link+Satellite
- (4)Anchor 模型: 是Data Vault的进一步规范化,Anchors+Attributes+Ties+Knots
2 阿里巴巴数据模型实践综述
- 第一阶段:ODS+DSS
- 第二阶段
- 引入MPP的Greenplum;
- ER模型+维度模型,四层模型结构:ODL操作数据层+BDL基础数据层+IDL接口数据层+ADL应用数据层;
- ER模型的构建遇到较大困难,在业务快速发展,人员快速迭代的业务面前不太适合构建ER模型。
- 第三阶段
- 拥抱Hadoop等分布式平台
- 以维度模型为核心方法论构建阿里巴巴公共层模型数据架构体系(统一化的集团数据整合及管理方法体系“OneDATA”)
- OneData 包括一致性的指标定义体系/模型设计方法/配套工具
- 开发自己的Max Compute分布式计算平台