大数据--数据仓库--数据仓库分层总结

本文介绍了电商数仓的建设流程,包括使用flume和kafka导入日志,sqoop导入业务数据。重点阐述了数仓的分层模型,如ODS、DWD、DWS和ADS层,以及在各层中的数据处理和优化策略,如列式存储、压缩和事实累积。同时,提出了另一种分层模型(ods-fact-unit-topic-aggr-app),详细说明了各层的功能和应用场景。
摘要由CSDN通过智能技术生成

一:数仓分层(标准五层)

    电商数仓建设:采用flume,kafka导入日志数据,采用sqoop导入业务数据。接着进行数仓分层建模。

ods层:

    保持数据原貌,不做任何修改,起到数据备份作用;

     创建分区表,防止后续全表扫描

     采用压缩,减少磁盘存储空间。

     补充orc格式:列式存储,有多种文件压缩方式,并且有很高的压缩比;文件是可切分的,提供  多种索引。

dwd层:

        描述业务事实。具体建模过程:选择业务过程-- 声明粒度 -- 确认维度 -- 确认事实 。具体来讲,如果业务系统比较规范,设计的很合理的话,我们做的事情也不会太多,一般删掉null值,数据清洗,数据兜底;几个ods层表进行关联,产生我们业务过程需要的字段。

dwd层:

     封装业务规则,其实是事实层的一个深入。具体操作是对事实层的字段进行再加工;把来自其他系统、业务,平台的字段加进来,也就是做一个事实累积的过程。(例如经纬度,例如单车干预等)

dws层:进行维度退化,字段冗余,或者按照每天进行一个轻度汇总。

ads层:报表层:根据实际需求来开发一些指标

二:数仓分层(ods-fac

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值