教育行业数仓搭建
写在前面:
数仓建模是数据治理中的重要环节;
好的数仓建模可以让整个数据体系更加清晰,一方面可提高数据指标一致性 也便于取数;另一方面 可节省开发资源;
##数仓的作用
数仓建模中 十分重要的一部分是数据分层;
原因:
- 数据结构清晰化:
每一层都有它的作用和定位,使用者可以根据不同的需求场景 明确定位到不同的层或数据表; - 避免重复开发:
数据结构清晰 避免开发频繁建中间表,减少重复计算; - 快速定位数据问题:
当发现数据质量问题时,根据不同的主题域,不同层 方便定位数据问题; - 统一数据口径:
通过数据分层提供统一的数据出口,统一对外数据口径输出;
##数据分层设计原则
- ODS: 经过ETL之后装入本层,基本按照源头业务系统的数据进行存储;一般不做过多的数据清洗,原封不动接入源数据即可;
- 数据仓库层DW:
从ODS层里获取的数据 按照主题建立各种分主题数仓建模;
a. DWD( Data WareHouse Detail )
数据明细层;跟ODS层一样的数据粒度,经过一部分的数据聚合,将相同主题的数据汇集到一张表中,并提供一定的数据质量保证;
b. DWM (Data WareHouse Middle)
数据中间层;在DWD基础上,生成一系列中间表以提升公共指标的复用性;即:对通用核心指标进行聚合操作,算出