一:数据清洗的背景
1. 数据质量
- 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
2. 数据质量的评价指标
- 数据质量的评价指标主要包括数据的准确性、完整性、简洁性及适用性,其中数据的准确性、完整性、简洁性是为了保证数据的适用性。
- 适用性是评价数据质量的核心准则。
3. 数据质量的问题分类
- 数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于数据清洗方式的“脏”数据分类。
- ①基于数据源的“脏”数据质量问题可以分为两类,即单数据源问题和多数据源问题。
- ②从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立型“脏”数据”和“依赖型“脏”数据”两类。其中依赖型“脏”数据主要包括缺失数据和重复数据等“脏”数据。
二:数据清洗的定义
- 数据清洗技术是提高数据质量的有效方法。
- 在数据仓库环境中,数据清洗主要包括数据的清洗和结构的转换两个过程。
三:数据清洗的原理
- 数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。
四:数据清洗的基本流程
- 数据清洗的基本流程一共分为五个步骤,分别是数据分析,定义数据清洗的策略和规则,搜寻并确定错误实例,纠正发现的错误以及干净数据回流。
五:数据清洗的策略
- 按照数据清洗的实现方式与范围划分,一般分为手工清洗策略、自动清洗策略、特定应用领域的清洗策略以及与特定应用领域无关的清洗策略。
六:常见的数据清洗方法
- 常见的数据质量问题主要包括缺失值,重复值以及错误值等问题。
- ①缺失值的清洗方法主要分为两类,即忽略缺失值数据和填充缺失值数据。
- ②目前清洗重复值的基本思想是“排序和合并”。