质量控制是通过监控质量形成过程,消除全过程中引起不合格或不满意效果的因素,以达到质量要求而采用的各种质量作业技术和活动。要保证最终交付质量,必须对过程进行质量控制,通常是在过程中设置关键质量控制点。例如,可以在数据录入阶段设置规则程序,从源头避免不可接受的数据进入系统。
数据质量控制的目的是致力于满足数据质量要求,消除或减少异常数据。数据质量控制可以在数据的生命周期内的不同时点被应用,来测试数据的质量和其是否适合于其所在的系统。
华为通过数据质量监控平台,以异常数据管理为核心,实施数据质量控制。
1. 识别监控对象范围,确定监控内容
数据质量控制从明确业务需求开始,根据业务规划和数据相关方的需求,阶段性确定数据质量控制范围。
从定性、定量两个维度识别关键数据,定性维度参考以下原则。
(1)重要性原则
-
关键主数据和基础数据:公司级、领域级主数据,如产品、客户、供应商、组织、人·关键的事务数据:主交易流的核心事务数据,如客户合同、BOQ、工程服务采购PR、S&OP计划、采购PO。
-
痛点问题:领域业务运营痛点问题、公司级变革、攻关项目、业务核心KPI等涉及的对象纳入度量,如产品Item。
(2)成本效益原则
-
运作成熟且质量较高的数据,或度量成本很高但预期的改进很少的数据,可不优先考虑。
-
数据管家也可通过收集业务需求、数据质量问题等其他途径从中筛选当前需监控的数据。
2. 数据源剖析
在着手设计数据质量规则前,需对数据进行快速数据剖析,目的是分析数据源的内容、质量和结构,同时发现和分析数据源中的所有数据不规范问题和使数据项目处于危险中的隐藏数据问题。
摘要视图包含属性的可视化表示形式。
1)数据源内容:如从上述数据源剖析结果的摘要视图中,我们可以了解到此表包含员工工号、姓名等内容,即列信息等。
2)数据源结构:包括技术结构和业务结构。技术结构指空值频率、相异值频率、值范围(最大值、最小值)、模式、长度、数据类型。业务结构如组织结构存储是平面结构还是树状结构。
3)数据源质量:根据数据标准分析剖析结果的数据质量,例如必填字段是否有空值存储,有允许值列表中的值个数与相异值频率是否一致等。
数据剖析可以更好地识别需要监控数据的质量要素。
3. 设计和配置监控规则,自动监测异常数据
目前华为数据质量监控平台已实现质量规则的可配置、数字化、快速部署、自动监控识别异常数据等能力,并可随时间推移,制定周期性监控计划,监视数据质量的进展情况,并通过虚拟化的方式快速、灵活发布监控结果。
可利用自助分析工具开发在线数据质量分析报告,通过前端工具不仅能够查看监控结果汇总数据,而且能够通过钻取功能查看异常明细数据,以便业务人员准确定位业务系统的异常数据。