扫描文末二维码可加入本文作者所在技术讨论群。
在数字化转型的背景下,数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。
目 录
01 数据质量问题产生来源
02 数据质量问题域及分类
03 数据质量建设的五个原则
04 数据质量关键技术及流程
05 数据质量管理实践
01
数据质量问题产生来源
数据集成融合就和古人筑堤坝一样,古人筑堤坝是为约束河水,让自然资源为我所用,发挥自然资源的价值;今人做数据集成融合,建数据中台,是为了挖掘数据价值,发挥数据资源的价值,让数据资源为企业的业务创新发挥价值。
大数据时代数据集成融合的需求不仅要融合企业内部数据,也要融合外部(互联网等)数据。如果没有对数据质量问题建立相应的管理策略和技术工具,那么数据质量问题的危害会更加严重。据IBM统计,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。
02
数据质量问题域及分类
数据质量问题从大的方面可以划分为技术、业务和管理问题域。技术问题域包括数据校验不够、默认值使用不当等问题,通常是由于系统建设和数据处理导致的。业务问题域细分为信息问题域和流程问题域,业务上存在多渠道数据创建、不合理的数据变更流程的问题。管理问题域包括数据责任人不明确、没有奖惩制度,缺少培训等。
企业数据分为创建、加载、汇总、分析到展现5个步骤,很显然,步任何一步出错都会导致整个结论分析失真:
1.业务操作部门在数据录入过程可能输入错误的数据。这决定了数据源的质量。
2.在数据抽取、加载工程中导致数据记录丢失、数据重复等问题。
3.在数据加工、转换过程中,由于数据加工、转换的代码鲁棒性和稳定性不够,导致的数据加工结果出现的错误。
4.数据计算汇总过程中,导致的数据的错误。