我们在数据开发和使用中最头疼的问题是什么呢?很多时候往往就是数据质量问题了,对数据开发来说,晚上突然因为数据延迟而被报警电话喊起来解决问题,无疑是让人崩溃的;对BI同学来说,辛辛苦苦写的报告,数据不对基本上这个项目就废了;对于投放同学来说,质量差的数据的表现更是让人生不如死,到底是策略出的问题还是数据出的问题,作为项目负责人在老板那里根本说不清楚,投放费用可是实实在在无法追回了。
数据质量是数据治理中最关键的组成部分,可以说基本上就是决定数据团队(开发、商分、策略、算法)等是否有产出(有价值)的关键了,那么这么重要的东西到底怎么保证呢?以及效果怎么来衡量呢?
数据质量保证要考虑哪些方面?
一般我们从如下几个方面来衡量数据质量
-
完备性:完备性主要是指的数据是否丢失,映射到数据实体——数据表上就是指的关键字段和行数的完备。行数上看,如果某天DAU比前一天减少了99%,那么第一要考虑的就是是否生产系统丢数据了;列数上看,如果丢失了部分字段,意味着丢失了一部分的信息,那么在部分业务的支持能力上肯定是缺失了的。如:百度的用户搜索行为日志中,缺失了用户搜索关键词,这行对于用户需求和兴趣的研究方面,基本就没有价值了。
-
准确性:一般是指的已经记录