数据清洗概述

数据清洗的概述

1.数据清洗的背景
如果作为决策支持的数据仓库存放的数据质量达不到要求,将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。
2.数据质量的评价指标
数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。适用性是评价数据质量的重要标准。
3.数据质量的问题分类
数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。
基于数据源的“脏”数据质量问题可以分为两类,即单数据源问题和多数据源问题。单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。单数据源的实例层问题是由于数据在模式层无法预防的错误和不一致引起的。多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。
基于数据源的“脏”数据分类方法需要为每种类型的“脏”数据设计单独的清洗方式。从数据清洗方式的设计角度看,可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。
独立型“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检测。独立型“脏”数据使用“数据合法性检验规则”检测数据字段的实际内容,若属性值不符合规则,则视为“脏”数据,此时可调用已定义的相关清洗方式,将其变为满足规则的数据,从而可以保证数据的合法性。
依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。缺失数据主要包括数据空值和数据异常;重复数据是指一个现实实体在数据集合中以多个不完全相同的记录表示。由于需要综合考虑与其他记录间的关联,依赖型“脏”数据的处理很难有通用的方法。一般地,针对特定类型的“脏”数据设计特定的清洗方式。
4.数据清洗的定义
数据清洗技术是提高数据质量的有效方法。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。
5.数据清洗的原理
数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。需要注意的是,数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。
6.数据清洗的基本流程
① 数据分析
② 定义数据清洗的策略和规则
③ 搜寻并确定错误实例
④ 纠正发现的错误
⑤ 干净数据回流
7.数据清洗的策略
一般的数据清洗策略:按照数据清洗的实现方式与范围划分,一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及与特定应用领域无关的清洗策略。
混合的数据清洗策略:混合的数据清洗策略主要以自动清洗为主。在数据仓库的数据初次装载阶段和增量装载阶段,可以通过编写应用程序实现批量数据的自动清洗,但该清洗策略并不能完全涵盖所有的错误类型。
8.常见的数据清洗方法
缺失值的清洗:缺失值的清洗方法主要分为两类,即忽略缺失值数据和填充缺失值数据。
重复值的清洗:目前清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似度计算和基于基本近邻排序算法等方法。
错误值的清洗:错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值、使用简单规则库检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值