系统思考数据质量-CSDN博客

系统思考数据质量

|0x00 质量标准体系

在谈一件事情的质量时，我们通常会想起ISO的标准，例如ISO9000，如果一件商品被打上了ISO的标签，对于自己产品的质量，是一件最有说服力的证据。

那么在数据领域有这种标准吗？有，比如ISO8000、ISO9126、或者是GB/T36344-2018，但这些标准一来显得太过于“重”，二来理解和寻找资料也是困难重重，三是按照这些规范来落地也不太现实。因此把其中精华的部分抽取出来，总结成几项大的原则，再根据公司的实际情况，补充细节部分，对于数据领域的从业者而言，更为切合实际一些。

以ISO9126软件质量模型为例，包含了6个大的特性和27个子特性，其中大部分移植到数据领域，通常也是适合的。

ISO9126质量体系如下图所示：

|0x01 从数据视角思考7个一级特性

我们把ISO9126的一级特性拿出来，按照数据领域的理解，一条条过一下。

【功能性】

功能性提供了软件/数据产品所需要的功能，包括适合、准确、互操作和保密安全。如果用通俗的语言解释，就是数据要有、数据要准、数据要全、数据是安全的。能够按照交付标准产出数据，数据是准确的，并且能够满足使用者的诉求，同时安全性要得到保证。

这些特性在很多文章中都有提到过，只不过没有提升到数据质量体系的高度来进行阐述。例如对于数据的一致性而言，有很多地方都可以用到这个概念，比如CAP理论，比如数据库的外键，比如逆向接口开发，等等。但数据一致性所影响的，依旧是数据的准确性，那么数据一致性就应该是准确性的一种解读，而不是一个子项。

【可靠性】

指产品在规定的条件下，在规定的时间内完成规定功能的能力。映射到数据系统中，便是数据使用者，在使用时，数据能够按时产出。对应的要求，就是数据链路的可靠性，例如上游数据是否按时产出、Job的调度是否正确，等等。

【易用性】

在指定使用条件下，产品被理解、学习、使用和吸引用户的能力。这一条是绝大多数数据从业者所忽视的一条，也就是自己做出来的报表，能否让用户读懂，而不仅仅是做出了报表产出了数据。例如我们对于数据指标的定义，用户是否接受，或者是我们所提供的数字，是否能够真的反映了商业的变化，而不仅仅是为了统计而统计。对于使用者而言，数据的结果是否能够被理解、是否满足了自己的诉求，通常跟产品需求和项目规划有关。

【效率】

在规定的条件下，相对于所用资源的数量，软件产品可提供适当性能的能力。例如最近大火的实时数仓，例如老生常谈的数据倾斜，就是效率的一种解读。这些能力最终影响的，是软件所提供的价值能力，因为提供的数据越实时、计算的问题越复杂，理论上可以带来更多的价值增量。

【维护性】

在规定条件下，规定的时间内，使用规定的工具或方法修复成功的能力。对于互联网这一类高速增长的业务而言，如果仅仅是为了满足需求，采取了烟囱式的开发手段，那么维护起来就一定是个灾难。因此，提供数据的复用能力，就是体现维护性的重点。通常来说提升数据的维护性有两个方面，一个是软件本身，提供Cube这种预计算的能力，一种是开发过程，提高数据的模型质量，降低理解和维护成本。

【可移植性】

从一种环境迁移到另一种环境的能力。这个能力考验的是数据架构或者工具的能力，例如当对于数据的要求从离线转向实时，过去写好的SQL代码是否能够完好迁移。或者是当开发架构从A迁移至B（Hadoop -> Spark / Storm -> Flink），所付出的成本有多少。

|0x02 数据质量定义的拆分

这些特点可以直接拿来用吗？从概念上讲，是可以的，但是却并没有延伸到我们的日常工作中，也就是停留在概念阶段，那么如何将我们的日常工作与这些标准结合起来，就是下一步要思考的问题。

从结果上来看，如果“用户体感”不佳，也就是功能性出现了问题，都可以归因为数据质量有问题，因为最终交付的是质量结果。而要解决这个问题，就需要思考数据开发的整个链路，也就是开发过程的可靠性。虽然开发过程中可能出现许许多多的意外，导致了数据对不上/没有准时产出/结果出现波动等情况，但它们的结果却是相同的，就是“数据质量”不好。

因此，我们应该把数据质量进一步切分，分为“用户可见”的数据质量，和“研发可见”的数据质量。解决“用户可见”是“治标”，通过快速恢复结果的兜底方案，来解决用户侧的问题，解决一时的困境；而解决“研发可见”是“治本”，对研发过程中平台可靠、建模清晰、数据安全等根本问题进行考量，解决长期的困境。