0x00 概述
随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。**而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!**如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。
数据质量,主要从四个方面进行评估,即完整性、准确性、一致性和及时性,本文将会结合业务流程和数据处理流程,对这个四个方面进行详细的分析和讲解。
数据,最终是要服务于业务价值的,因此,本文不会单纯讲解理论,而是会从数据质量监控这一数据的应用为出发点,为大家分享居士对数据质量的思考。通过本文,你将获得如下几方面的知识点:
- 数据质量核心关注的要点
- 从数据计算链条理解,每一个环节会出现哪些数据质量问题
- 从业务逻辑理解,数据质量监控能带来的帮助
- 实现数据质量监控系统时要关注的点
- 数据质量监控面临的一些难点和解决思路
0x01 四大关注点
本节,先简单地聊一下数据质量需要关注的四个点:即完整性、准确性、一致性和及时性。这四个关注点,会在我们的数据处理流程的各个环节有所体现。
一、完整性
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。
简单来讲,如果要做监控,需要考虑两个方面:一是,数据条数是否少了,二是,某些字段的取值是否缺失。完整性的监控,多出现在日志级别的监控上,一般会在数据接入的时候来做数据完整性校验。
二、准确性
准确性是指数据中记录的信息和数据是否准确,是否存在异常或者错误的信息。
直观来讲就是看数据是否上准确的。一般准确性的监控多集中在对业务结果数据的监控,比如每日的活跃、收入等数据是否正常。
三、一致性
一致性是指同一指标在不同地方的结果是否一致。
数据不一