博客内容来自上周听的一次方法论分析会,这里做一些提炼,原始文章来源
https://www.jianshu.com/p/5cc4c8c3829a
对我比较重要的观点:
- 数仓不应该是业务驱动型,而应该是业务前置型
- 维度退化不应该乱用,在某些场景下会变成维度冗余,应该充分调研维度,维度属性
- 快照和拉链应该是成对出现的,因为业务方既要历史变化的数据,也需要当前最新的数据
- dws层(轻度汇总层),应该怎么解释这一层在数仓中的作用
- 维度,维度属性,在不同业务场景下的变化
1. 调研
调研对象
调研对象应该无限接近数据的使用方
调研内容
- 掌握业务流,数据流,以便于构建模型
- 掌握业务方对数据的需求,建设数仓事实表/维度表
- 数据矩阵
2. 业务域
- 业务抽象
- 应用扩展
- 系统扩展
3. 模型
步骤
- 根据业务流,梳理业务过程中会涉及的所有维度
- 结合业务,选择合适的事实表的建模类型
- 建立基础指标和衍生指标
- 不可加的指标
维度表类型
4. 提炼
关系
实体关系ER图是抽象的表达,数据矩阵是具体的表达,二者结合使用梳理维度/度量指标
事实提炼/维度提炼
- 维度的提炼依赖于ER图,根据依赖关系确认归属的业务域
- 确认事实表中的维度依赖于实体之间的关系