定义高质量数据

1 定义高质量数据

许多人看到质量差的数据时都能辨识出,但是很少有人能够定义高

质量数据,或者他们用非常不严谨的术语定义它:“数据必须是正确

的”“我们需要准确的数据”。高质量的数据能满足数据消费者的需要。

在启动数据质量方案之前,有益的做法是了解业务需求、定义术语、识

别组织的痛点,并开始就数据质量改进的驱动因素和优先事项达成共

识。根据一组问题,可以了解当前状态,并评估组织对数据质量改进的

准备情况。

1)“高质量数据”是什么意思?

2)低质量数据对业务运营和战略的影响是什么?

3)更高质量的数据如何赋能业务战略?

4)数据质量改进需要哪些优先事项的推动?

5)对低质量数据的容忍度是多少?

6)为支持数据质量改进而实施的治理是什么?

7)配套实施的治理结构是什么?

要全面了解组织中数据质量的当前状态,需要从不同的角度来探讨

这个问题:

1)了解业务战略和目标。

2)与利益相关方面谈,以识别痛点、风险和业务驱动因素。

3)通过资料收集和其他剖析形式直接评估数据。

4)记录业务流程中的数据依赖关系。

5)记录业务流程的技术架构和系统支持。

上述评估过程可以揭示大量的机会,这需要根据对组织的潜在利益

进行优先排序。利用利益相关方(包括数据管理专员、业务和技术领域

专家)的输入,数据质量团队应定义数据质量的含义并提出项目优先

级。13.2.2 定义数据质量战略

提高数据质量要有一定的战略,应考虑到需要完成的工作以及人们

执行这些工作的方式。数据质量优先级必须与业务战略一致。采纳或开

发一个框架及方法论将有助于指导战略和开展战术,同时提供衡量进展

和影响的方法。一个框架应包括以下方法:

1)了解并优先考虑业务需求。

2)确定满足业务需求的关键数据。

3)根据业务需求定义业务规则和数据质量标准。

4)根据预期评估数据。

5)分享调查结果,并从利益相关方那里获得反馈。

6)优先处理和管理问题。

7)确定并优先考虑改进机会。

8)测量、监控和报告数据质量。

9)管理通过数据质量流程生成的元数据。

10)将数据质量控制集成到业务和技术流程中。

框架还应该考虑如何管理数据质量以及如何利用数据质量工具。如

引言一节所述,提高数据质量需要数据质量团队吸引业务和技术人员,

定义一个解决关键问题的工作计划和最佳实践,并制定支持数据质量持

续管理的操作流程。这样的团队通常是数据管理组织的一部分,数据质

量分析人员需要与各级数据管理专员密切合作,并对制度施加影响,包

括有关业务流程和系统开发的制度,即使这样的团队还是无法解决组织

面临的所有数据质量的挑战。数据质量工作和对高质量数据的承诺需要

嵌入组织实践。数据质量策略应该说明如何扩展最佳实践(参见第17

章)。

13.2.3 识别关键数据和业务规则

并非所有的数据都同等重要。数据质量管理工作应首先关注组织中

最重要的数据:如果数据质量更高,将为组织及其客户提供更多的价

值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。通常,数据质量改进工作从主数据开始,根据定义,主

数据是任何组织中最重要的数据之一。重要性分析结果是一个数据列

表,数据质量团队可以使用该结果聚焦他们的工作。

在确定关键数据之后,数据质量分析人员需要识别能描述或暗示有

关数据质量特征要求的业务规则。通常,规则本身并没有明确的文档记

录,它们可能需要通过分析现有的业务流程、工作流、规则、政策、标

准、系统编辑、软件代码、触发器和过程、状态代码分配和使用以及简

单的常识进行逆向还原。例如,如果一家营销公司的目标锁定在特定人

群,那么数据质量的潜在指标可能是人口统计领域(出生日期、年龄、

性别和家庭收入等)的人口水平和合理性。

识别能描述或暗示有关数据质量特征要求的业务规则。大多数业务

规则都与如何收集或创建数据相关,但数据质量度量则围绕数据是否被

适当使用进行。数据创建和数据使用是相关的,人们之所以想使用数

据,正是因为它代表的含义以及数据创建。例如,要了解一个组织在某

季度或某一段时间内的销售业绩,需要依靠有关销售流程的可靠数据

(销售的数量和单位、销售给老客户和新客户的数量对比等)。

知道数据的所有使用方法是不可能的,但可以理解创建或收集数据

的过程和规则。描述数据是否适合使用的度量,应该根据已知用途和基

于数据质量指标(完整性、一致性、有效性、完整性等)的可测量规则

进行开发,这些有意义的指标提供了测量的基础。分析师通过质量指标

描述了规则(如字段x是强制的,必须有值)和结果(实际上,该字段

3%的记录未被填充,是空的;数据完整性仅为97%)。

在字段或列的级别,规则可以比较简单。完整性规则反映了字段是

强制的还是可选的,如果是可选的,还反映了填充字段的条件。有效性

规则依赖于规定有效值的域以及在某些情况下字段之间的关系。例如,

美国邮政编码本身必须是有效的,并且与美国国家代码正确关联;应在

数据集级别定义规则,如每个客户都必须有一个有效的邮寄地址。

因为大多数人不习惯用规则来思考数据,故定义数据质量规则具有

很大挑战性。有必要向利益相关方询问相关业务流程的输入和输出需求

来间接了解规则,这样有助于了解痛点、数据丢失或不正确时会发生什

么、如何识别问题、如何识别坏数据等。请记住,为了评估数据,不需

要一次了解所有规则。发现和完善规则是一个持续的过程,获得规则的最好方法之一是分享评估结果,这些结果通常会让利益相关方对数据有

一个新的视角,告诉他们想知道的数据信息,帮助他们更清晰地阐明规

则。

13.2.4 执行初始数据质量评估

一旦确定最关键的业务需求和支持它们的数据,数据质量评估的最

重要部分就是实际查看数据、查询数据,以了解数据内容和关系,以及

将实际数据与规则和期望进行比较。第一次这样做时,分析人员会发现

许多事情:数据中未被记录的依赖关系、隐含规则、冗余数据、矛盾数

据等,当然还有实际符合规则的数据。在数据管理专员、其他领域专家

和数据消费者的帮助下,数据治理分析人员需要对调查结果进行分类并

确定其优先级。

初始数据质量评估的目标是了解数据,以便定义可操作的改进计

划。通常最好从聚焦一项较小工作开始——一个基本的概念证明

Proof of Concept,POC)——来演示改进过程是如何工作的。步骤包

括:

1)定义评估的目标。这些目标将推动工作进展。

2)确定要评估的数据。重点应放在一个小的数据集,甚至一个数

据元素,或一个特定的数据质量问题上。

3)识别数据的用途和数据的使用者。

4)利用待评估的数据识别已知风险,包括数据问题对组织过程的

潜在影响。

5)根据已知和建议的规则检查数据。

6)记录不一致的级别和问题类型。

7)根据初步发现进行额外的深入分析,以便:

①量化结果。

②根据业务影响优化问题。

③提出关于数据问题根本原因的假设。

8)与数据管理专员、领域专家和数据消费者会面,确认问题和优

先级。9)使用调查结果作为规划的基础。

①解决问题,最好是找到问题的根本原因。

②控制和改进处理流程,以防止问题重复发生。

③持续控制和汇报。

13.2.5 识别改进方向并确定优先排序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

手把手教你学AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值