数据仓库系列:如何优雅地规划数仓体系

0x00 前言

数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架为元数据管理奠定了基础对数据加工过程的理解、数仓建设的交流分享、数据的使用和问题排查、数仓健康度的评估都提供了极大的帮助

需要强调的是本节是从宏观上描述数仓的框架,具体到数据模型的细节对比、存储选型和管理、接入数据源管理等数仓建设的周边在本节不涉及。通过本节的阅读,你将了解到以下知识:

  • 从业务矩阵的设计(宏观、微观)、横向的分层、纵向的分线到主题划分等角度解构数仓

  • 数仓建设的实施流程

0x01 规划

矩阵

分宏观和微观来看,宏观的是公司的整体业务布局,微观的是产品的业务过程布局和业务过程的维度分解交叉信息。

宏观矩阵

宏观矩阵描述的是公司的业务线和对应的数据状况,其行和列一般分别对应着业务主题和数据主题。

  • 业务主题对应着公司的业务线布局,比如电商、游戏、视频、应用商店、新闻资讯、浏览器等

  • 数据主题根据抽象的程度和视角有不同的取法:

    • 一般取业务线中用户对内容的消费或者相关行为,比如曝光、点击、消费、播放、分享等,对这些行为的划分又可分为原生行为主题(通用和业务相关)、衍生行为主题(留存、活跃、流失等),这种划分方法更多的取自数据的底层和公共层,因为高层的数据都是多行为的汇总。

    • 对数据主题的另外划分方式参加分主题部分,这种划分方法更多的取自数据的高层

引自《数据仓库实践之业务数据矩阵的设计-木东居士》

微观矩阵

微观矩阵描述的是主题和对应的维度关系,下面以常见的内容消费和用户主题两个维度来看微观矩阵的规划

-w698

业务过程描述的一般是对内容的消费抽象,可以是原子的,也可以是抽象的,比如卡片曝光维度的划分可以从以下两个大方向入手:

  • 通用标识维度(版本、机型、渠道、网络、时间等)

  • 业务过程维度:消费者等级、消费位置、消费路径、其它等

分层

ODS->DW->DM->DA(ADS)层是如何划分的,分层的原因(引自《一种通用的数据仓库分层方法-木东居士》):

  • 清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解

  • 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算

  • 统一数据口径:通过数据分层,提供统一的数据出口

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值