一:数仓分层(标准五层)
电商数仓建设:采用flume,kafka导入日志数据,采用sqoop导入业务数据。接着进行数仓分层建模。
ods层:
保持数据原貌,不做任何修改,起到数据备份作用;
创建分区表,防止后续全表扫描
采用压缩,减少磁盘存储空间。
补充orc格式:列式存储,有多种文件压缩方式,并且有很高的压缩比;文件是可切分的,提供 多种索引。
dwd层:
描述业务事实。具体建模过程:选择业务过程-- 声明粒度 -- 确认维度 -- 确认事实 。具体来讲,如果业务系统比较规范,设计的很合理的话,我们做的事情也不会太多,一般删掉null值,数据清洗,数据兜底;几个ods层表进行关联,产生我们业务过程需要的字段。
dwd层:
封装业务规则,其实是事实层的一个深入。具体操作是对事实层的字段进行再加工;把来自其他系统、业务,平台的字段加进来,也就是做一个事实累积的过程。(例如经纬度,例如单车干预等)
dws层:进行维度退化,字段冗余,或者按照每天进行一个轻度汇总。
ads层:报表层:根据实际需求来开发一些指标