1.数仓整体架构
2.数仓分层
在我实习公司中,数仓大概分为三层,为ods、dw、ads。
概念 | 理解 |
---|---|
ODS | 业务数据与数据仓库的一个隔离,该层数据结构与原始日志中的结构一致,存放的是原始日志数据。源头数据不能收到污染,必须保持和原始日志数据一致。因为数据可能存在冲突,所以最好加上时间版本用于区别相同数据。 |
DW | DW层为数据公共层,由ods层数据关联得到,之后也无需求直接从dw层拉取,管理所有数据。 |
1.dwd: | 明细事实表:组合相关数据,解决一些数据质量问题和数据的完全度问题,采用明细宽表减少扫描,例如订单表,dwd中每个订单都只会取订单的最新状态,当出现退款订单时,因为退款日期上限位3天,故该表需要三天回准。 |
2.dws: | 数据宽表:通过dwd、ods层数据整理出来的基于某一个主题或者活动的详细数据宽表,为上层数据产品、服务提供公共指标。 |
3.dim |