数据质量衡量的几个度量指标

1.数据质量起夜率

前文在介绍数据及时性时已经提到,数据产品或者管理层决策日报一般都要求在上午9:00 之前提供,数据仓库的作业任务都是在凌晨运行的,一旦数据出现问题就需要开发人员起夜进行处理。因此,每个月的起夜次数将是衡量数据质量建设完善度的一个关键指标。如果频繁起夜,则说明数据质量的建设不够完善,所以在阿里巴巴数据仓库数据质量度量体系里,起夜率是一个首先要考虑的指标。
对于数据质量本身,将通过数据质量事件和数据质量故障来衡量。

2.数据质量事件

针对每一个數据质量问题,都记录一个數据质量事件。
数据质量事件,首先,用来跟进数据质盘问题的处理过程;其次,用来归纳分析数据质量原因;第三,根据数据质量原因来查缺补漏,既要找到数据出现问题的原因,也要针对类似问题给出后续预防方案。
因此,数据质量事件既用来衡量数据本身的质量,也用来衡量数据链路上下游的质量,是数据质量的一个重要度量指针。

3.数据质量故障体系

对于严重的数据质量事件,将升级为故障。
故障,是指问题造成的影响比较严重,已经给公司带来资产损失或者公关风险。比如财报计算错误、卖家结算数据错误、微贷信用数据错误、高管报表错误或者延迟等都将带来恶劣的影响。
此类数据质量问题,己经不仅仅是一个事件,而是升级为故障。当然,数据质量故障对于开发人员和部门来讲,都是一个重要考核点,因此也是数据质量度量最严的一个指标。
数据从采集到最后的消费,整个链路要经过几十个系统,任何一个环节出现问题,都会影响数据的产出,因此需要一种机制,能够特各团队邦在一起,目标一致,形成合力,故障体系在这个背景下应运而生。
一旦出现故障,就会通过故障体系,要求相关团队第一时间跟进解决问题,消除影响。

(1)故障定义

首先识别出重要的业务数据,并注册到系统中,填写相关的业务情况,如技术负责人、业务负责人、数据应用场景、延迟或错误带来的影响、是否会发生资产损失等,完成后,会将这部分数据的任务挂到平台基线上,一旦延迟或错误即自动生成故障单,形成故障。

(2)故障等级

故障发生后,会根据一定的标准判断故障等级,如故障时长、客广投诉量、资金损失等,将故障按 p1~p4 定级,各团队会有故障分的概念,到年底会根据放障分情况来判断本年度的运维效果。

(3)故障处理

故障发生后,需要快速地识别故障原因,并迅速解决,消除影响。在处理故障的过程中,会尽快将故障的处理进度通知到相关方,尽可能减少对业务的影响。

(4) 故障 Review

对于故障会进行 Review,即分析故障的原因、处理过程的复盘、形成后续解决的 Action,并且都会以文字的形式详细记录,对故障的责任进行归属,一般会到具体的责任人。注意,对故障责任的判定,不是为了惩罚个人,而是通过对故障的复盘形成解决方案,避免问题再次发生。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值