大数据--数据仓库--数据仓库分层总结

最新推荐文章于 2025-08-21 09:53:21 发布

原创

最新推荐文章于 2025-08-21 09:53:21 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了电商数仓的建设流程，包括使用flume和kafka导入日志，sqoop导入业务数据。重点阐述了数仓的分层模型，如ODS、DWD、DWS和ADS层，以及在各层中的数据处理和优化策略，如列式存储、压缩和事实累积。同时，提出了另一种分层模型（ods-fact-unit-topic-aggr-app），详细说明了各层的功能和应用场景。

一：数仓分层（标准五层）

电商数仓建设：采用flume，kafka导入日志数据，采用sqoop导入业务数据。接着进行数仓分层建模。

ods层：

保持数据原貌，不做任何修改，起到数据备份作用；

创建分区表，防止后续全表扫描

采用压缩，减少磁盘存储空间。

补充orc格式：列式存储，有多种文件压缩方式，并且有很高的压缩比；文件是可切分的，提供多种索引。

dwd层：

描述业务事实。具体建模过程：选择业务过程-- 声明粒度 -- 确认维度 -- 确认事实。具体来讲，如果业务系统比较规范，设计的很合理的话，我们做的事情也不会太多，一般删掉null值，数据清洗，数据兜底；几个ods层表进行关联，产生我们业务过程需要的字段。

dwd层：

封装业务规则，其实是事实层的一个深入。具体操作是对事实层的字段进行再加工；把来自其他系统、业务，平台的字段加进来，也就是做一个事实累积的过程。（例如经纬度，例如单车干预等）

dws层：进行维度退化，字段冗余，或者按照每天进行一个轻度汇总。

ads层：报表层：根据实际需求来开发一些指标

二：数仓分层（ods-fact-unit-topic-aggr-app）

ods层：

例如调度和干预业务，这是两个业务系统，所以业务数据进行接入，从mysql接入到hive的ods层，车辆的车型号，生产商等信息，也进行接入到hive的ods层；城市区域的名称，编码存储在维表里面；

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。