在评估问题时,尤其是评估那些确定了根本原因并且需要进行技术
变更的问题时,时时刻刻要注意防止问题再次发生。预防问题的成本通
常比纠正问题的成本要低,有时甚至要低几个数量级(参见第11章)。
13.2.7 开发和部署数据质量操作
许多数据质量方案都是从通过数据质量评估结果确定的一组改进项
目开始的。为了保证数据质量,应围绕数据质量方案制订一个实施计
划,允许团队管理数据质量规则和标准、监控数据与规则的持续一致
性、识别和管理数据质量问题,并报告质量水平。为了支持这些活动,
数据质量分析人员和数据管理专员也需要参与记录数据标准和业务规
则、为供应商建立数据质量要求等活动。
1.管理数据质量规则剖析和分析数据的过程将帮助组织发现(或反向工程)业务和数据
质量规则。随着数据质量实践的成熟,对这些规则的获取应该构建到系
统开发和增强过程中。预先定义规则将:
1)对数据质量特征设定明确的期望。
2)提供防止引入数据问题的系统编辑和控制要求。
3)向供应商和其他外部方提供数据质量要求。
4)为正在进行的数据质量测量和报告创建基础。
简而言之,数据质量规则和标准是元数据的一种关键形式。为了提
高效率,需要将它们作为元数据进行管理。规则应该是:
1)记录的一致性。建立记录规则的标准和模板,使其具有一致的
格式和含义。
2)根据数据质量维度定义。质量维度帮助人们了解正在测量的内
容。维度的一致应用将有助于度量和管理问题的过程。
3)与业务影响挂钩。虽然数据质量维度能够帮助理解常见问题,
但它们本身并不是目标。标准和规则应该与它们对组织成功的影响直接
相关。不应采取与业务流程无关的度量。
4)数据分析支持。数据质量分析人员不应猜测规则,而应根据实
际数据测试规则。在多数情况下,规则将显示数据存在的问题,但有关
分析也表明规则本身通常并不完整。
5)由领域专家确认。规则的目标是描述数据的形态。通常,需要
通过组织过程的知识确认规则正确地描述了数据。当主题专家确认或解
释数据分析的结果时,知识就产生了。
6)所有数据消费者都可以访问。所有数据消费者都应该能够访问
记录的规则,这样既可以让他们更好地理解数据,同时也有助于确保规
则正确和完整,确保使用者能够就规则提出问题并提供反馈。
2.测量和监控数据质量
业务数据质量管理过程取决于测量和监控数据质量的能力。进行业
务数据质量度量的原因有两方面,它们同等重要:
1)向数据消费者通报质量水平。
2)管理业务或技术流程,改变引入的变更风险。有些测量方法同时适用于这两个目的,应根据数据评估和根本原因
分析(简称根因分析)的结果制定测量方法。旨在通知数据消费者度量
将侧重于关键数据元素及其关系,如果这些元素和关系不健全,将直接
影响业务流程。与风险管理相关的度量应该集中在过去出错的关系以及
将来可能出错的关系上。例如,如果数据是基于一组ETL规则派生的,
并且这些规则可能会受到业务流程更改的影响,那么应该进行测量以检
测数据的更改。
应将从过去的问题中获得的知识应用于风险管理。例如,如果许多
数字问题都与复杂的推导相关,那么应该评估所有的推导,甚至是那些
与数字数据问题无关的推导。在大多数情况下,有必要对存在问题的功
能或类似的功能进行监控。
测量结果可以分为两个层次进行描述:执行单个规则相关的详细信
息和规则汇总的总体结果。每个规则都应该有一个用于比较的标准、目
标或阈值索引。此函数通常反映正确数据的百分比或异常的百分比,具
体取决于使用的公式。例如
式中,r为正在测试的规则。
例如,对业务规则rule(
r)的10000次测试中发现560个异常,那么
在本例中,有效数据质量(ValidDQI)的结果为9440/10000=94.4%,无
效数据质量(
InvalidDQI)的结果为560/10000=5.6%。
如表13-2所示,组织度量和结果有助于在整个报告中构建测量、度
量标准和指标,揭示可能的汇总,并加强沟通。该报告可以更加正式
化,并与能够解决问题的项目相关联。过滤后的报告对于数据管理专员
寻找趋势和贡献很有用。表13-2提供了以这种方式构建规则的示例。在
适用的情况下,规则结果以正百分比(符合规则和期望的数据部分)和
负百分比(不符合规则的数据部分)表示。
数据质量规则为数据质量的操作管理提供了基础。无论是通过现成