目录
1.1 数仓分层规范
1.1.1 为什么需要数据建模
大数据系统需要数据模型方法来帮助更好的组织和存储数据,以便在性能,成本,效率和质量之间取得最佳平衡。
-
性能:良好的数据模型能够帮我们快速查询所需要的数据,减少数据的I/O吞吐。
-
成本:良好的数据模型能够极大地减少不必要的数据冗余,也能够实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
-
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
-
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
1.1.2 维度模型
维度模型是数据仓库工程领域最流行的数据仓库建模的经典。
维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型的是星型模型,以及在一些特殊场景下使用的雪花模型。
1.1.3 标准数仓分层
目前教学或者书籍上最经典的分层是分为五层。依次为ODS,DWD,DWS,DWT,ADS层。
-
ODS:保持数据原貌,不做任何修改,起到数据备