数据清洗

数据清洗一. 背景二. 数据清洗的基本方法2.1 属性错误清洗2.1.1 属性错误检测2.1.2 属性错误清洗2.2 不完整数据清洗2.3 相似重复记录清洗2.3.1 相似重复记录识别2.3.2 相似重复记录清洗一. 背景现实生活中的数据极易受到噪声、缺失值和不一致数据的侵扰 , 数据集成可能也会产生数据不一致的情 况 , 数据清洗就是识别并且 ( 可能 ) 修复这些 “ 脏数据 ” 的过程如果一个数据库数据规范工作做得好,会给数据清洗工作减少许多麻烦.对于数据清洗工作的研究基本上是基于相似重复记录的
摘要由CSDN通过智能技术生成

一. 背景

现实生活中的数据极易受到噪声、缺失值和不一致数据的侵扰 , 数据集成可能也会产生数据不一致的情 况 , 数据清洗就是识别并且 ( 可能 ) 修复这些 “ 脏数据 ” 的过程
如果一个数据库数据规范工作做得好,会给数据清洗工作减少许多麻烦.对于数据清洗工作的研究基本上是基于相似重复记录的识别与剔除方法展开的,并且
以召回率和准确率作为算法的评价指标[33,34].现有的清洗技术大都是孤立使用的,不同的清洗算法作为黑盒子以顺序执行或以交错方式执行,而这种方法没有考虑不同清洗类型规则之间的交互简化了问题的复杂性,但这种简化可能会影响最终修复的质量,因此需要把数据清洗放在上下文中结合端到端质量执行机制进行整体清洗。随着大数据时代的到来,现在已经有不少有关大数据清洗系统的研究[36,37],不仅有对于数据一致性[38−40]以及实体匹配[41]的研究,也有基于 MapReduce 的数据清洗系统的优化[42]研究。

二. 数据清洗的基本方法

从微观层面来看,数据清洗的对象分为模式层数据清洗和实例层数据清洗[43].数据清洗识别并修复的“脏数据”主要有错误数据、不完整的数据以及相似重复的数据,根据“脏数据”分类,数据清洗也可以分为 3 类:属性错误清洗、不完整数据清洗以及相似重复记录的清洗,下面分别对每种情况进行具体分析

2.1 属性错误清洗

数据库中很多数据违反最初定义的完整性约束,存在大量不一致的、有冲突的数据和噪声数据,我们应该识别出这些错误数据,然后进行错误清洗.

2.1.1 属性错误检测

属性错误检测有基于定量的方法和基于定性的方法.

  • 定量的误差检测一般在离群点检测的基础上采用统计方法来识别异常行为和误差,离群点检测是找出与其他观察结果偏离太多的点

  • 定性的误差检测一般依赖于描述性方法指定一个合法的数据实例的模式或约束,因此确定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值