【读书笔记】阿里巴巴大数据实践:大数据领域建模综述(第8章)

第8章 大数据领域建模综述


一句话评论:历经三个阶段,阿里巴巴以维度建模为核心方法论,拥抱Hadoop等分布式平台,构建起统一化的集团数据整合及管理方法体系——OneDATA。


  • 数据模型:数据组织和存储方法,强调从业务、数据存取和使用角度合理地存储数据。数据与数据模型的关系类似于图书馆与图书的关系。
  • 关系型数据库的鼻祖:E.F.Codd --> 在分布式方面有飞速发展 Hadoop/Spark/阿里巴巴的MaxCompute等都是基于关系数据库理论。
  • OLTP :随机读写,主要解决数据冗余和一致性问题,采用满足 3NF的实体关系模型(ER)来存储数据。
  • OLAP:批量读写,主要解决数据整合,复杂大数据查询和处理的性能,因此采用的模型不一定是ER。

1 典型的数据仓库建模方法论

  • (1)ER 模型: 高层模型–>中层模型–>物理模型
  • (2)维度模型: 快速完成需求分析,星形模型+雪花模型
  • (3)Data Vault 模型: 是ER的延伸,Hub+Link+Satellite
  • (4)Anchor 模型: 是Data Vault的进一步规范化,Anchors+Attributes+Ties+Knots

2 阿里巴巴数据模型实践综述

  • 第一阶段:ODS+DSS
  • 第二阶段
    • 引入MPP的Greenplum;
    • ER模型+维度模型,四层模型结构:ODL操作数据层+BDL基础数据层+IDL接口数据层+ADL应用数据层;
    • ER模型的构建遇到较大困难,在业务快速发展,人员快速迭代的业务面前不太适合构建ER模型。
  • 第三阶段
    • 拥抱Hadoop等分布式平台
    • 以维度模型为核心方法论构建阿里巴巴公共层模型数据架构体系(统一化的集团数据整合及管理方法体系“OneDATA”)
    • OneData 包括一致性的指标定义体系/模型设计方法/配套工具
    • 开发自己的Max Compute分布式计算平台
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值