数据质量
“数据质量”一词既指高质量数据的相关特征,也指用于衡量或改进
数据质量的过程。这一双重含义可能会令人困惑,因此将它们区分开有
助于理解什么是高质量的数据[2]。
数据质量如达到数据消费者的期望和需求,也就是说,如果数据满
足数据消费者应用需求的目的,就是高质量的;反之,如果不满足数据
消费者应用需求的目的,就是低质量的。因此,数据质量取决于使用数
据的场景和数据消费者的需求。
数据质量管理的挑战之一,是与质量相关的期望并不总是已知的。
通常,客户可能不清楚自身的质量期望,数据管理人员也不会询问这些
需求。然而,如果数据是可靠和可信的,那么数据管理专业人员需要更
好地了解客户的质量要求,以及如何衡量数据质量。随着业务需求和外
力的发展,需求会随着时间的推移而变化,因此需要进行持续的讨论。
2.关键数据
大多数组织都有大量的数据,但并非所有的数据都同等重要。数据
质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数
据上,这样做可以明确项目范围,并使其能够对业务需求产生直接的、
可测量的影响。
虽然关键的特定驱动因素因行业而异,但组织间存在共同特征,可
根据以下要求评估关键数据:
1)监管报告。
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略。
根据定义,主数据至关重要。可以根据使用的过程、出现在报告中
的性质,或者如果出现问题对组织的财务、监管或声誉的风险,来评估数据集或单个数据元素的重要性[3]。
3.数据质量维度
数据质量维度是数据的某个可测量的特性。术语“维度”可以类比于
测量物理对象的维度(如长度、宽度、高度等)。数据质量维度提供了
定义数据质量要求的一组词汇,通过这些维度定义可以评估初始数据质
量和持续改进的成效。为了衡量数据质量,组织需要针对重要业务流程
(值得测量的)和可以测量的参数建立特征。维度是衡量规则的基础,
其本身应该与关键流程中的潜在风险直接相关。
例如,如果“客户电子邮件地址”字段的数据不完整,将无法通过电
子邮件向这些客户发送产品信息,这就将失去了潜在的销售机会。因
此,应衡量有可用电子邮件地址的客户的百分比,并改进流程,直到至
少有98%的客户有可用电子邮件地址为止。
数据质量领域的很多杰出学者已经发表了一系列质量维度[4]。这里
介绍三个最具影响力的人物,他们深入研究了如何获得高质量数据,以
及如何测量数据质量。
Strong-Wang框架(
1996)侧重于数据消费者对数据的看法,描述
了数据质量的4个大类及15个指标:
(
1)内在数据质量
1)准确性。
2)客观性。
3)可信度。
4)信誉度。
(
2)场景数据质量
1)增值性。
2)关联性。
3)及时性。
4)完整性。
5)适量性。
(
3)表达数据质量1)可解释性。
2)易理解性。
3)表达一致性。
4)简洁性。
(
4)访问数据质量
1)可访问性。
2)访问安全性。
Thomas Redman在《信息时代的数据质量》(Data Quality for the
Information Age,1996)一书中,制定了一套基于数据结构的数据质量
维度[5]。Redman将一个数据项定义为“可表示的三元组”:一个实体属
性域与值的集合。维度可以与数据的任何组成部分相关联:模型(实体
和属性)及其值。Redman还定义了一类用于记录数据项规则的表达维
度。在这三大类别中(数据模型、数据值、数据表达),他一共描述了
20多个维度,其中包括以下内容:
(
1)数据模型
1)内容。
①数据关联性。
②获取价值的能力。
③定义清晰性。
2)详细程度。
①特征描述颗粒度。
(
2)属性域的精准度
1)构成。
①自然性。每个属性在现实世界中应该有一个简单的对应物,且每
个属性都应承载一个关于实体的单一事实。
②可识别性。每个实体都应能与其他实体区分开来。
③同一性。
④最小必要冗余性。
2)一致性。①模型各组成部分的语义一致性。
②跨实体类型属性的结构一致性。
3)应变性。
①健壮性。
②灵活性。
4)数据值。
①准确性。
②完备性。
③时效性(Currency)。
④一致性。
5)数据表达。
①适当性。
②可解释性。
③可移植性。
④格式精确性。
⑤格式灵活性。
⑥表达空值的能力。
⑦有效利用存储。
⑧数据的物理实例与其格式一致。
Redman认识到,实体、价值和表达的一致性可以通过约束来理
解,不同类型的一致性受不同类型的约束。
Larry English在《改善数据仓库和业务信息质量》(
Improving Data
Warehouse and Business Information Quality,1999)一书中提出了一套
综合指标,分为两大类别:固有特征和实用特征[6]。固有特征与数据使
用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的
用途而不同。
(
1)固有质量特征
1)定义的一致性。2)值域的完备性。
3)有效性或业务规则一致性。
4)数据源的准确性。
5)反映现实的准确性。
6)精确性。
7)非冗余性。
8)冗余或分布数据的等效性。
9)冗余或分布数据的并发性。
(
2)实用质量特征
1)可访问性。
2)及时性。
3)语境清晰性。
4)可用性。
5)多源数据的可整合性。
6)适当性或事实完整性。
2013年,DAMA UK发布了一份白皮书,描述了数据质量的6个核
心维度:
1)完备性。存储数据量与潜在数据量的百分比。
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事
物)。
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则
数据有效。
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程
度。
6)一致性。比较事物多种表述与定义的差异。
DAMA UK白皮书还描述了对质量有影响的其他特性,但没有将这
些指标称为“指标”,它们的工作方式类似于Strong-Wang的语境和表达
数据质量特征,以及English的实用性特征