一:数仓分层(标准五层)
电商数仓建设:采用flume,kafka导入日志数据,采用sqoop导入业务数据。接着进行数仓分层建模。
ods层:
保持数据原貌,不做任何修改,起到数据备份作用;
创建分区表,防止后续全表扫描
采用压缩,减少磁盘存储空间。
补充orc格式:列式存储,有多种文件压缩方式,并且有很高的压缩比;文件是可切分的,提供 多种索引。
dwd层:
描述业务事实。具体建模过程:选择业务过程-- 声明粒度 -- 确认维度 -- 确认事实 。具体来讲,如果业务系统比较规范,设计的很合理的话,我们做的事情也不会太多,一般删掉null值,数据清洗,数据兜底;几个ods层表进行关联,产生我们业务过程需要的字段。
dwd层:
封装业务规则,其实是事实层的一个深入。具体操作是对事实层的字段进行再加工;把来自其他系统、业务,平台的字段加进来,也就是做一个事实累积的过程。(例如经纬度,例如单车干预等)
dws层:进行维度退化,字段冗余,或者按照每天进行一个轻度汇总。
ads层:报表层:根据实际需求来开发一些指标
二:数仓分层(ods-fact-unit-topic-aggr-app)
ods层:
例如调度和干预业务,这是两个业务系统,所以业务数据进行接入,从mysql接入到hive的ods层,车辆的车型号,生产商等信息,也进行接入到hive的ods层;城市区域的名称,编码存储在维表里面;

本文介绍了电商数仓的建设流程,包括使用flume和kafka导入日志,sqoop导入业务数据。重点阐述了数仓的分层模型,如ODS、DWD、DWS和ADS层,以及在各层中的数据处理和优化策略,如列式存储、压缩和事实累积。同时,提出了另一种分层模型(ods-fact-unit-topic-aggr-app),详细说明了各层的功能和应用场景。
最低0.47元/天 解锁文章
5751

被折叠的 条评论
为什么被折叠?



