目录
当今时代,海量数据的来源是广泛的,数据类型也是多而繁多的,因此数据当中也会夹杂着不完整,重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
(1)数据质量的评价指标
准确性:对于数据进行降噪处理,通过最常用的异常值检测方法聚类进行处理。
完整性:数据信息是否存在缺失的状况。
简洁性:精良选择重要的本质属性,并消出冗余。
适用性:数据质量是否满足决策的需要是适用性的关键所在。从数据的实际效用上讲,适用 性才是评价数据质量的核心准则。
(2)数据质量问题分类
基于数据源的“脏”数据分类:
通常情况下,将数据源中不完整、重复以及错误等有问题的数据称为“脏”数据。
基于清洗方式的“脏”数据分类:
从数据清洗方式的设计者角度来看,可以将“脏”数据分为“独立性”和“依赖性”
(3)数据清洗原理
数据清晰是利用相关技术将“脏”数据转换为满足质量要求的数据;需要注意的是数据清洗的目的是解决“脏”数据问题,既不是将脏数据要洗掉,而是将脏数据洗干净。干净的数据指的是满足质量要求的数据。
(4)数据清洗的基本流程
数据清洗的基本流程分为五步,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。
数据分析:通过人工检测或者计算机分析的方式来对原始数据进行检测分析,从而得出原始数据源中存在的数据质量问题。
定义数据清洗的策略和规则:根据数据分析出的数据源个数和数据源中的脏数据成都定义数据清洗策略和规则,并选择合适的数据清洗算法。
搜寻并确定错误实例:包括自动检测属性错误和检测重复记录的算法。
纠正发现的错误:根据不同的脏数据存在的不同形式,执行相应的数据清洗和转化步骤解决原始数据源当中存在的质量问题。
干净数据回流:当脏数据被清洗之后得到干净数据,干净数据代替原始数据源当中的脏数据,这样可以提高信息系统系统的数据质量,还可以避免将来再次抽取数据后进行反复的数据清洗工作。
(5)数据清洗的策略
目前数据清洗的策略主要分为一般的数据清晰策略和混合数据清晰策略。
(6)常见的数据清洗方法
缺失值的清洗:忽略缺失值数据和填充缺失值数据。
重复值的清洗:目前基本思想是“排序和合并”,主要有相似度计算和基本近邻排序算法等算法。
错误值的清洗:主要包括使用统计分析的方法识别可能的错误值(偏差分析。、识别不遵从分布或回归方程的值)、使用简单规则库(常识性规则、业务特定规则)检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。