数据中台建设漫谈

关于数据中台,我们首先会想到的是,什么样的企业适合建数据中台,数据中台怎么做,数据中台怎么用,数据中台应该注意什么,为此文章也从这四个角度去考虑:

一、什么样的企业适合建数据中台。

关于什么样的企业适合建数据中台,要回答这个问题,首先我们要清楚的是,在企业数字化转型的过程中,或者企业信息化的项目建设过程中,会遇到什么问题,

  1. 数据指标口径不一致,相同的指标名称,口径不一致;相同的业务口径,对应的指标名称不一样。
  2. 数据重复建设,特别是具有不同的业务场景,不同的业务形态的,烟囱式的开发,常常存在同样的报表,同样的统计维度,在不同的系统模块,进行重复加工,重复开发建设。
  3. 取数效率低,业务方在使用数据的时候,不知道怎么找到数据,也取不到数据。
  4. 数据质量差,涉及到上下游的数据的时候,存在同样的字段的长度,类型,甚至名称都不一致,下游的使用方,常常需要使用字段映射进行处理。
  5. 重复建设导致的数据成本线性增长。
  6. .........

当然,以上的问题仅仅是列举的一些,可能远远不止。

那么,回到开头,什么样的企业适合建数据中台呢:

  • 业务之间存在关联关系,但是业务上存在数据孤岛。
  • 拥有至少3个的以上的数据应用场景。
  • 面临效率、成本、质量的问题。
  • 在数字化转型的过程中,急切需要提高经营的效率。
  • 业务相对稳定,有一定规模的公司。

二、数据中台怎么做。

关于数据中台建设的方法论,这里还是应用业内熟知的,Onedata和Oneservice。

Onedata,需要确保所有的数据只加工一次。

Oneservice,数据即服务,通过API接口的方式访问。

那么要做到Onedata,需要分主题域管理,指标的命名规范一致,指标一致,数据模型复用,数据尽可能的覆盖所有业务过程。

Oneservice,

  • 屏蔽异构数据源,数据服务必须要能够支持类型丰富的查询引擎。
  • 数据网关,实现权限、监控、流控、日志在内的一系列管控能力,哪个应用的哪个页面访问了哪个模型,如果一个模型长时间没有访问,应予以下线
  • 性能稳定性,安全。

下面具体从Onedata和Oneservice分别进行阐述。

1、Onedata,主要是从元数据中心,数据指标、数据模型、数据质量、数据成本等5个维度进行阐述。

  • 元数据中心,关于元数据中心的产品,业内也有比较成熟的产品和方案,这里重点讲述,元数据应该要实现的功能。

       元数据包含数据字典、数据血缘、数据特征。

       数据字典,是数据的结构信息,包含库、表、列的信息,甚至是字段的类型。

            注:图片来源于网络,具体参考 郭忆老师的数据中台实战课。

       数据血缘,描述的是指一个表是通过哪些表加工来,需要支持字段级别的血缘,方便溯源。

       数据特征,主要是数据的属性信息,比如存储空间,访问热度,

       数据地图,提供一站式的数据发现服务,多维度检索,按照主题域、分层导览,可以查询表详情信息,字段信息,及数据血缘信息。

       当然关于元数据分析问题,不仅要通过血缘分析,还需要通过影响度分析、差异分析。

  • 数据指标,构建全局的指标字典,规范指标,方便快速搜索。

        指标分属于不同的业务线,业务过程,规范指标需要做到面向主题域管理, 

        指标命名需要规范,拆分原子指标(核心指标)和派生指标(非核心指标),原子指标的建立,需要完整的评审流程,派生指标的建立更多是基于业务方,业务方自行负责。

  • 数据模型,理想的数仓模型,数据模型应该是可复用,完善且规范。

     

      ODS 原始数据层

      DWD明细数据层

      DWS 轻度汇总层

      ADS/DM 应用层/集市层

      DM维度

      DWD完善度,衡量DWD层是否完善,最好看ODS层有多少表被DWS/ADS/DM层应用。

      跨层引用率,ODS层直接被DWS/ADS/DM层引用的表,占所有ODS层表比例。

      跨层引用率越低越好,引用的越多,说明越多的任务是基于原始数据进行深度聚合计算的,明细数据就没有积累,无法被复用,数据清洗、格式化、集成存在重复开发。要求不允许跨层引用,        ODS层数据只能被DWD引用。

      复用度,DWD/DWS模型引用系数

      规范度,有多少表没有主题域,业务过程归属,模型命名不规范,字段命名不规范。

  •       数据质量,要提升数据质量,重要的是做到早发现,早恢复  。

     早发现,是比数据使用方优先发现问题。

     早恢复,是缩短故障恢复的时间,降低故障对数据产出的影响。

     但数据质量问题的产生根源主要有:业务源系统的变更,包括数据库表结构的变更、系统环境的变更等;数据开发任务的变更,主要有处理逻辑缺陷、测试用数据、任务配置异常等。当然还有其他的一些问题,比如物理资源的不足,基础设施的不稳定。

      那么如果要提高数据质量,一是添加标准稽核任务,标准稽核是将元数据的名称、类型、长度等信息和标准用语进行稽核,自动发现与标准不符合的字段,是标准挖掘和标准映射的基础。

      二是基于血缘关系,建立全链路监控。

  •     数据成本,精细化的成本管控。

烟囱式的开发模式,数据上线容易,下线难,低价值的数据占用较多的内存和资源,以及调度周期的设置不合理,导致数据成本偏高。

要做好精细化的成本管控,建立全链路的数据资产视图,建立成本意识,核算末端数据的价值,定期评估数据是否可以下线。

2、Oneservice,数据即服务,

在企业信息化建设的过程中,主要存在数据接入效率低,数据和接口没办法复用,不知道数据被哪些应用访问,数据出现问题,不知道会影响哪个应用,下线数据的时候,也不知道会影响哪些业务,数据字段的变更导致应用的变更,如此种种,都需要规范的数据服务来解决。那么在Oneservice中,需要具备什么功能:

  • 规范化的接口定义
  • 数据网关,认证、授权、限流、监控
  • 全链路打通
  • 构建API集市,实现接口复用。
  • 逻辑模型的复用

三、数据中台怎么用。

数据来源于业务,需回到业务中,数据中台的应用遵循三个阶段:

初级阶段---BI数据报表

发展阶段---数据产品

高阶阶段---自助取数

下面分别阐述上面的三个阶段,

  • 数据中台对赋能BI,指标口径一致性,数据报表的数据质量,全维度钻取分析,报表的治理。
  • 构建数据产品,实现数据驱动的精细化运营,量化目标,持续监控,诊断分析,决策建议。
  • 自助取数,拖拉拽图形化操作,替代自定义sql,对业务人员的友好操作,丰富指标维度。

四、数据中台建设应该注意什么。

  • 为什么要建设数据中台, 与业务要达成一致的目标。
  • 数据中台是跨不同的业务场景,甚至
  • 是跨不同的团队,需要当成一个顶层的设计,顶级的项目来推进,而不是局限于一个部门。
  • 必须有清晰的,可量化的价值来衡量。

-----附:文章参考极客时间中郭忆老师的《数据中台实战课》,根据郭忆的实战课进行整理,需要更详细的学习,请订阅实战课学习。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值