202108- 数仓建模方法

博客内容来自上周听的一次方法论分析会,这里做一些提炼,原始文章来源

https://www.jianshu.com/p/5cc4c8c3829a

对我比较重要的观点:

  1. 数仓不应该是业务驱动型,而应该是业务前置型
  2. 维度退化不应该乱用,在某些场景下会变成维度冗余,应该充分调研维度,维度属性
  3. 快照和拉链应该是成对出现的,因为业务方既要历史变化的数据,也需要当前最新的数据
  4. dws层(轻度汇总层),应该怎么解释这一层在数仓中的作用
  5. 维度,维度属性,在不同业务场景下的变化

1. 调研

调研对象

调研对象应该无限接近数据的使用方

调研内容
  1. 掌握业务流,数据流,以便于构建模型
  2. 掌握业务方对数据的需求,建设数仓事实表/维度表
  3. 数据矩阵

2. 业务域

  1. 业务抽象
  2. 应用扩展
  3. 系统扩展

3. 模型

步骤
  1. 根据业务流,梳理业务过程中会涉及的所有维度
  2. 结合业务,选择合适的事实表的建模类型
  3. 建立基础指标和衍生指标
  4. 不可加的指标
维度表类型

4. 提炼

关系

实体关系ER图是抽象的表达,数据矩阵是具体的表达,二者结合使用梳理维度/度量指标

事实提炼/维度提炼
  1. 维度的提炼依赖于ER图,根据依赖关系确认归属的业务域
  2. 确认事实表中的维度依赖于实体之间的关系
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值