数仓自学笔记之基本理论1

1.概述

  • 数仓建模本质就是表的设计
  • 数据量、业务需求大所以提出分层(大型企业有数据积存,存放历史数据)
  • 主要用于组织积累的历史数据,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助决策。
  • 是一个面向主题的、集成的、非艺失且随时间变化的数据集合(不允许修改,所以选择追加数据并打上时间戳)

2.分层的好处

  1. 数据储存更规范,每层都有自己的价值,在使用和维护时便于理解;
  2. 让原本复杂的数据处理流程简单化,如将复杂业务拆分成多个步骤完成,每个步骤都对应不同的存储层,每个层解决特定的问题;
  3. 提供统一的数据口径。由于每层的职责统一,因此每层的数据写入以及读取口径也可进行统一。由于其中涉及大量业务逻辑,所以很难有一套严格的标准进行规范。

3.常见分层

  • ODS层

操作数据层 ,把操作系统数据几乎无处理地存放在数据仓库中。主要存放未经处理的原始数据。

  • DW层

采用维度模型方法作为基础,更多采用了维度退化的手法,将维度退化至事实表中,减少事实表和维度表的关联。                                                                          --《阿里大数据之路》

主要包括DWD和DWS层。

其中DWD保持和ODS一样的数据粒度,但DWD会对ODS进行数据清洗(保证规范性,即标准化),如字段命名统一化、空值填充、脏数据剔除、字段补齐等,建议保留较长的时间。DWS一般基于某个主题域进行数据汇总,用于后续业务查询、OLAP分析等,该层数据保存时间建议一个月。

  • ADS层

存放数据产品个性化的统计指标数据,根据CDM和ODS层加工而成。

                                                                                                               --《阿里大数据之路》

ADS层一般会存到数据查询复杂度低、带精密索引的数据库中,如MYSQL,HBASE,Redis等。该层数据保存时间建议两周左右。

4.评价准则

评价数仓建模的好坏:层级之间的复用度

如ADS的数据尽可能全部来源于DWS,DWS的数据尽可能都来源于DWD,DWD数据尽可能来源于ODS。若在数仓设计中存在过多跨层依赖就是失败的。另外,在数仓中,不允许出现不属于任何层级的表出现且任意一张表的命名尽可能直观。

以上为作者自学笔记,如有问题请指正。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值