建设实践第六讲
之前增量dwd回顾注意点:半夜打卡的, 前一天的早10点前,到前第二天的早10点后都算
[百度搜索 踏踏实实练sql, 那个B站站主是某大厂数仓大佬,可加好友学习,他人很好]
dws注意点1: 最早上班时间点, 是有问题的, dwd派生指标数据类型一般为 bigint double等,datatime类似标签
dws注意点2: 上午缺卡数据,这个指标有点复杂, 单独去写个子查询
dws提示点3: 用子查询,然后left join,用子查询,可以控制数据的列和行数, 减少资源消耗
DWS建设
DWS做什么指标,一定要和业务方沟通,看业务方想要什么样的
(ods,dwd 就join做关联, dws 就groupby聚合统计做指标, ads selectwhere做标签)
(dwd只放原子指标, dws放派生指标)
1.为了保证ads做出来的指标口径一致,减少重复计算,提高ads复用
2,颗粒度, 比如我工作的数据, 颗粒度就可以划分为 比赛 赛季 赛事等, 不能杂糅在一起,会数据膨胀)
3,周期,30天 60天 90天,同一个指标,可以做不同周期的, 一个指标有几个, dws里有几十个指标
dws到底要做什么事?
dws是按照颗粒度、维度等进行聚合产生的汇总数据模型
(1)保障的是指标口径统一,能够为ads提供复用
(2)对dw