(从电商项目认识数仓体系一)数仓介绍

本文介绍了数据仓库(DW)的基本概念和作用,并详细阐述了数仓的分层结构,包括ODS、DWD、DWS和ADS层。此外,讨论了数仓计算引擎Tez的优势,以及数据来源如埋点和业务数据。还提到了数仓系统的技术选型,如Flume、Kafka、Hive等,并简要提及了集群资源规划和数据流程图。
摘要由CSDN通过智能技术生成

1 基本流程图

2 基本介绍

数据仓库(Data Warehouse),简写为DW或DWH,为企业做决策提供系统数据支持的集合。例:仓库中一个指标为用户浏览网页次数(UV),如果用户多次浏览该网页,如果是电商系统,则可以认为该用户有购买该商品意向,可对该用户进行商品推荐,或者可作为报表提供给决策层进行一些决策

数据仓库的作用并不单单是存储,而是对数进行一些处理后,将处理后的数据,分门别类的存储,作为能够支撑业务或者分析的处理后数据源,使得对应的需求能够从对应的主题中直接提取所需要的数据,这些处理包括一些清洗、转义、分类、重组、合并、拆分、统计等等。

3 数仓层介绍

(1)分层介绍

ODS:原始数据层,存放原始数据直接加载原始日志、数据,保持数据原貌不做处理。

DWD(DWI):数据明细层,结构和粒度与ODS层保持一致,对ODS层数据进行数据清洗(去除空值,脏数据,不符合要求的数据)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值