一般情况下,企业都有多套的业务系统,一些大型企业甚至会有上百套的业务系统。这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位,大量应用系统产生的大量数据是脏数据。这些脏数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。这就是数据质量问题的由来。
一般来说数据质量问题有四个因素造成:
从上述的四因素来说,管理因素和流程因素属于组织管理范畴,信息因素和技术因素属于技术范畴。所以,要改进数据质量问题,要从组织管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。
从方法论的角度,从组织管理上去改进质量,我们能做的是:
-
确立组织数据质量改进目标
-
评估组织流程
-
制定组织流程改