关于数据中台,我们首先会想到的是,什么样的企业适合建数据中台,数据中台怎么做,数据中台怎么用,数据中台应该注意什么,为此文章也从这四个角度去考虑:
一、什么样的企业适合建数据中台。
关于什么样的企业适合建数据中台,要回答这个问题,首先我们要清楚的是,在企业数字化转型的过程中,或者企业信息化的项目建设过程中,会遇到什么问题,
- 数据指标口径不一致,相同的指标名称,口径不一致;相同的业务口径,对应的指标名称不一样。
- 数据重复建设,特别是具有不同的业务场景,不同的业务形态的,烟囱式的开发,常常存在同样的报表,同样的统计维度,在不同的系统模块,进行重复加工,重复开发建设。
- 取数效率低,业务方在使用数据的时候,不知道怎么找到数据,也取不到数据。
- 数据质量差,涉及到上下游的数据的时候,存在同样的字段的长度,类型,甚至名称都不一致,下游的使用方,常常需要使用字段映射进行处理。
- 重复建设导致的数据成本线性增长。
- .........
当然,以上的问题仅仅是列举的一些,可能远远不止。
那么,回到开头,什么样的企业适合建数据中台呢:
- 业务之间存在关联关系,但是业务上存在数据孤岛。
- 拥有至少3个的以上的数据应用场景。
- 面临效率、成本、质量的问题。
- 在数字化转型的过程中,急切需要提高经营的效率。
- 业务相对稳定,有一定规模的公司。
二、数据中台怎么做。
关于数据中台建设的方法论,这里还是应用业内熟知的,Onedata和Oneservice。
Onedata,需要确保所有的数据只加工一次。
Oneservice,数据即服务,通过API接口的方式访问。
那么要做到Onedata,需要分主题域管理,指标的命名规范一致,指标一致,数据模型复用,数据尽可能的覆盖所有业务过程。
Oneservice,
- 屏蔽异构数据源,数据服务必须要能够支持类型丰富的查询引擎。
- 数据网关,实现权限、监控、流控、日志在内的一系列管控能力,哪个应用的哪个页面访问了哪个模型,如果一个模型长时间没有访问,应予以下线
- 性能稳定性,安全。
下面具体从Onedata和Oneservice分别进行阐述。
1、Onedata,主要是从元数据中心,数据指标、数据模型、数据质量、数据成本等5个维度进行阐述。
- 元数据中心,关于元数据中心的产品,业内也有比较成熟的产品和方案,这里重点讲述,元数据应该要实现的功能。
元数据包含数据字典、数据血缘、数据特征。
数据字典,是数据的结构信息,包含库、表、列的信息,甚至是字段的类型。
注:图片来源于网络,具体参考 郭忆老师的数据中台实战课。
数据血缘,描述的是指一个表是通过哪些表加工来,需要支持字段级别的血缘,方便溯源。
数据特征,主要是数据的属性信息,比如存储空间,访问热度,
数据地图,提供一站式的数据发现服务,多维度检索,按照主题域、分层导览,可以查询表详情信息,字段信息,及数据血缘信息。
当然关于元数据分析问题,不仅要通过血缘分析,还需要通过影响度分析、差异分析。
- 数据指标,构建全局的指标字典,规范指标,方便快速搜索。
指标分属于不同的业务线,业务过程,规范指标需要做到面向主题域管理,
指标命名需要规范,拆分原子指标(核心指标)和派生指标(非核心指标),原子指标的建立,需要完整的评审流程,派生指标的建立更多是基于业务方,业务方自行负责。
- 数据模型,理想的数仓模型,数据模型应该是可复用,完善且规范。
ODS 原始数据层
DWD明细数据层
DWS 轻度汇总层
ADS/DM 应用层/集市层
DM维度
DWD完善度,衡量DWD层是否完善,最好看ODS层有多少表被DWS/ADS/DM层应用。
跨层引用率,ODS层直接被DWS/ADS/DM层引用的表,占所有ODS层表比例。
跨层引用率越低越好,引用的越多,说明越多的任务是基于原始数据进行深度聚合计算的,明细数据就没有积累,无法被复用,数据清洗、格式化、集成存在重复开发。要求不允许跨层引用, ODS层数据只能被DWD引用。
复用度,DWD/DWS模型引用系数
规范度,有多少表没有主题域,业务过程归属,模型命名不规范,字段命名不规范。
- 数据质量,要提升数据质量,重要的是做到早发现,早恢复 。
早发现,是比数据使用方优先发现问题。
早恢复,是缩短故障恢复的时间,降低故障对数据产出的影响。
但数据质量问题的产生根源主要有:业务源系统的变更,包括数据库表结构的变更、系统环境的变更等;数据开发任务的变更,主要有处理逻辑缺陷、测试用数据、任务配置异常等。当然还有其他的一些问题,比如物理资源的不足,基础设施的不稳定。
那么如果要提高数据质量,一是添加标准稽核任务,标准稽核是将元数据的名称、类型、长度等信息和标准用语进行稽核,自动发现与标准不符合的字段,是标准挖掘和标准映射的基础。
二是基于血缘关系,建立全链路监控。
- 数据成本,精细化的成本管控。
烟囱式的开发模式,数据上线容易,下线难,低价值的数据占用较多的内存和资源,以及调度周期的设置不合理,导致数据成本偏高。
要做好精细化的成本管控,建立全链路的数据资产视图,建立成本意识,核算末端数据的价值,定期评估数据是否可以下线。
2、Oneservice,数据即服务,
在企业信息化建设的过程中,主要存在数据接入效率低,数据和接口没办法复用,不知道数据被哪些应用访问,数据出现问题,不知道会影响哪个应用,下线数据的时候,也不知道会影响哪些业务,数据字段的变更导致应用的变更,如此种种,都需要规范的数据服务来解决。那么在Oneservice中,需要具备什么功能:
- 规范化的接口定义
- 数据网关,认证、授权、限流、监控
- 全链路打通
- 构建API集市,实现接口复用。
- 逻辑模型的复用
三、数据中台怎么用。
数据来源于业务,需回到业务中,数据中台的应用遵循三个阶段:
初级阶段---BI数据报表
发展阶段---数据产品
高阶阶段---自助取数
下面分别阐述上面的三个阶段,
- 数据中台对赋能BI,指标口径一致性,数据报表的数据质量,全维度钻取分析,报表的治理。
- 构建数据产品,实现数据驱动的精细化运营,量化目标,持续监控,诊断分析,决策建议。
- 自助取数,拖拉拽图形化操作,替代自定义sql,对业务人员的友好操作,丰富指标维度。
四、数据中台建设应该注意什么。
- 为什么要建设数据中台, 与业务要达成一致的目标。
- 数据中台是跨不同的业务场景,甚至
- 是跨不同的团队,需要当成一个顶层的设计,顶级的项目来推进,而不是局限于一个部门。
- 必须有清晰的,可量化的价值来衡量。
-----附:文章参考极客时间中郭忆老师的《数据中台实战课》,根据郭忆的实战课进行整理,需要更详细的学习,请订阅实战课学习。