数据清洗第一章知识点

一:数据清洗的背景

1. 数据质量

  • 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

2. 数据质量的评价指标

  • 数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性,其中数据的准确性、完整性、简洁性是为了保证数据的适用性。
  • 适用性是评价数据质量的核心准则。

3. 数据质量的问题分类

  • 数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于数据清洗方式的“脏”数据分类。
  • ①基于数据源的“脏”数据质量问题可以分为两类,即单数据源问题和多数据源问题。
  • ②从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。其中依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。

二:数据清洗的定义

  • 数据清洗技术是提高数据质量的有效方法。
  • 在数据仓库环境中,数据清洗主要包括数据的清洗和结构的转换两个过程。

三:数据清洗的原理

  •  数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。

四:数据清洗的基本流程

  • 数据清洗的基本流程一共分为五个步骤,分别是数据分析,定义数据清洗的策略和规则,搜寻并确定错误实例,纠正发现的错误以及干净数据回流。

五:数据清洗的策略

  • 按照数据清洗的实现方式与范围划分,一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及与特定应用领域无关的清洗策略。

六:常见的数据清洗方法

  • 常见的数据质量问题主要包括缺失值,重复值以及错误值等问题。
  • ①缺失值的清洗方法主要分为两类,即忽略缺失值数据和填充缺失值数据。
  • ②目前清洗重复值的基本思想是“排序和合并”。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值