《数据清洗》日常学习笔记

       因为原始数据中存在着一些错误、重复的数据,直接使用的话会严重影响数据决策的准确性和效率,所以要对原始数据进行有效的清洗是大数据分析过程中的关键环节。

1.1.1数据质量的评价指标

        包括数据的准确性、完整性、简洁性、适用性。 其中准确性、完整性、简洁性是为了保证数据的适用性


1.1.2数据质量的问题分类

        一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。


A.基于数据源的“脏”数据分类

        数据又分为单数据源和多数据源,数据源又下分为模式层和实例层(元祖、行、记录),模式层是指数据库的结构,就是关系结构,实例层是指关系中具体存储的数据记录或元组。


 

B.基于清洗方式的“脏”数据分类

        划分为独立性和依赖性,依赖性脏数据划分为缺失数据和重复数据。与MySQL类似。


 

1.2数据清洗的定义

        数据清洗技术是提高数据质量的有效方法。数据清洗主要用于3个领域,即数据仓库、数据挖掘、数据质量管理领域。


1.3数据清洗的原理

        将同一值得不同表示、拼写错误、不同的命名习惯、不合法的值、以及空值都通过定义好的数据清洗策略和清洗规则对“脏”数据进行清洗,从而得到满足数据质量要求的数据。


 

1.4数据清洗的基本流程

        一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。


1.5数据清洗的策略

  1. 一般清洗策略
  1. 手工清洗策略,即人工修改
  2. 自动清洗策略,通过专门的程序进行修改
  3. 特定应用领域的清洗策略,根据概率统计学原理检测并修改数值异常记录
  4. 与特定应用领域无关的清洗策略,根据相关算法检测并删除重复记录
  1. 混合的数据清洗策略

        以自动清洗为主。


1.6常见的数据清洗方法

        常见的数据质量问题主要包括缺失值、重复值以及错误值等问题。

  1. 缺失值的清洗

        忽略缺失数据和填充缺失数据。

  1. 重复值的清洗

        基本思想是“排序和合并”。

  1. 错误值的清洗

        运用统计分析的方法识别、使用简单的规则库等等。


1.7重点回顾

  1. 对原始数据进行有效的清洗是大数据分析过程中的关键环节。
  2. 数据的评价指标有数据的准确性、完整性、简洁性、适用性适用性是核心准则
  3. 数据的质量问题可以分为基于数据源的“脏”数据分类与基于清洗方式的“脏”数据分类。
  4. 数据清洗技术是提高数据质量的有效方法。
  5. 常见的数据质量问题主要包括缺失值、重复值以及错误值等问题。
  6. 重复值的清洗的基本思想是“排序和合并”。
  7. 数据清洗的基本流程:一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值