数据仓库【开发流程】

前沿

        本文重在梳理数据开发的整体流程,以及每个环节需要注意的点,有啥不足之处,希望大家多多提意见,多多交流~

一、数据开发流程

  1. 调研
    1. 业务调研:了解业务流程,了解数据在业务数据中的流转情况,了解数据的业务主键;
    2. 数据调研:了解数据之间的关系,ER图,关键字段的枚举值;
    3. 需求调研:了解当前以及历史需求,帮助梳理指标口径。
  2. 划分数据域、主题域:数据域和主题域是数据仓库的两个重要的概念,他们在数据仓库建设和数据分析中扮演着不同的角色
    1. 数据域:业务系统的角度,对业务过程进行归纳、抽象出来的数据域。它是自下而上的,通常在完成业务系统数据调研后就可以进行数据域的划分。数据域更侧重于从业务数据的角度进行划分,确保数据的完整性和准确性。
      1. 避免数据冗余和冲突:确保同一数据域中的数据是相对集中的,避免不同数据域之间的数据冗余和冲突;
      2. 粒度适中:数据域的粒度要适中,不能过大或过小。如果粒度多大,则会造成数据归纳不清晰;如果粒度过小,则会造成数据管理复杂化;
      3. 保持数据域的稳定性:数据域的划分应该是相对稳定的,避免频繁调整,以保证数据分析的稳定性和可靠性;
      • 用户域:注册、登陆、购买
      • 交易域:下单、支付、退款等
      • 营销域:患者报道、分销、推广、优惠券等
      • 日志域:代码埋点、全埋点、业务埋点其他日志等
      • 商品内容域:课程、咨询、商品等
    2. 划分主题域:从数据分析应用的角度上进行划分的,通常是联系较为紧密的数据主题的集合。主题域是自上而下的,更侧重于从业务分析的视角来划分数据。根据业务需求的特点,可以将从业务系统划分的数据域重新划分至不同的主题域。主题域可以帮助分析人员更好的理解和利用数据,从而做出更准确的业务决策。
      • 按照业务过程划分:一个业务过程抽象出一个主题域,例如业务系统中的商品交易、物流等
      • 按照业务部门划分:一个业务部门抽象出一个主题,例如中台部门、业务运营部门、供应链部门等
      • 按照业务系统划分:一个业务系统抽象出一个主题,例如搬家系统、ERP系统
      • 按照需求划分:长期分析的过程涉及到的各种主题;
      • 按照功能划分:软件的不同功能模块也可以归纳为不同的主题,例如社交软件中的聊天、朋友圈、群聊等。
      • 举例:用户行为分析、运营数据分析、用户画像、市场数据分析、业务资金分析。
    3. 通俗举例:建设数据仓库就像饭店做菜一样,数据域如同厨房根据采购的食材特点将它们摆放在不同货架上,如肉禽区、果蔬区、调味区等。主题域如同饭店根据不同客群体的口味需求将食材做成了不同的菜系,如鲁菜、川菜等。
  3. 构建总线矩阵
    1. 一致性维度:构建一致性维度,包括日期维度、地域维度、产品维度、渠道维度,形成同名同义的一致性维度。
    2. 一致性事实:选择业务过程、声明粒度、确定维度、确定事实
    3. 构建总线矩阵:行为业务过程、列为公共维度,从整体上了解整个公司的业务逻辑以及相关的维度,从整体架构把控整个数据仓库的框架。
  4. 维度建模、数仓分层
    1. 维度建模
      1. 星型模型:事实表关联维度表;
      2. 雪花模型:事实表关联维度表,维度表还关联其他维度表;
      3. 星座模型:多个事实表公用维度表,构成星座模型。
    2. 数仓分层
      1. ODS:数据贴源层,不做数据清洗处理,标记好同步周期和增量全量,后期有数据问题可以做问题溯源;
      2. DWD:数据明细层,经过数据清洗,规范化、标准化,数据命名词根统一、单位一致,是符合业务的明细数据层;
      3. DWS:轻微汇总层,按照最细粒度进行轻度汇总,构建一致性指标,指标同名同义,支持下游不同粒度的汇总,支持百分之八十的分析指标范围。
      4. ADS:高度汇总层,内部做跨业务部门或者更粗粒度的汇总,对外是各个部门的个性化需求报表的数据源。
      5. DIM:公共维度层,是维度建模一致性维度的重要保障层,可以一表关联整个方向的常用维度;
      6. TMP:临时层,这一层是支持临时数据分析,或者任务加工的临时结果存放。
  5. 数据开发规范
    1. 命名规范:分层命名、任务命名、表命名、字段命名,命名规范需要清晰一致,命名需易于下游的理解和使用。
    2. 数据清洗规范:词根词汇统一、异常值统一处理、单位统一
    3. 代码编写规范:编码习惯、换行、注释(name、desc、target、author、modify)
  6. 流程规范
    1. 需求评审规范:正式需求三方评审、发送邮件确认;
    2. 开数据发流程规范:CR代码互查,开发环境测试运行;
    3. 数据核对流程规范:数据自测报告、产业测试核对;
    4. 数据上线流程规范:checklist,任务上线记录关键时间点及相关人。
  7. 数据治理:详细见 数据仓库之数据治理-CSDN博客
    1. 存储治理:存储空间大、小文件多
    2. 计算资源治理:计算时间长、计算资源多
    3. 数据质量:数据完整性、准确性、一致性、及时性
    4. 数据监控:业务主键、重要状态枚举值、重要指标同比环比
    5. 元数据:技术元数据、业务元数据、管理元数据
    6. 数据审计:数据安全、数据权限。
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据松松

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值