因为原始数据中存在着一些错误、重复的数据,直接使用的话会严重影响数据决策的准确性和效率,所以要对原始数据进行有效的清洗是大数据分析过程中的关键环节。
1.1.1数据质量的评价指标
包括数据的准确性、完整性、简洁性、适用性。 其中准确性、完整性、简洁性是为了保证数据的适用性
1.1.2数据质量的问题分类
一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。
A.基于数据源的“脏”数据分类
数据又分为单数据源和多数据源,数据源又下分为模式层和实例层(元祖、行、记录),模式层是指数据库的结构,就是关系结构,实例层是指关系中具体存储的数据记录或元组。
B.基于清洗方式的“脏”数据分类
划分为独立性和依赖性,依赖性脏数据划分为缺失数据和重复数据。与MySQL类似。
1.2数据清洗的定义
数据清洗技术是提高数据质量的有效方法。数据清洗主要用于3个领域,即数据仓库、数据挖掘、数据质量管理领域。
1.3数据清洗的原理
将同一值得不同表示、拼写错误、不同的命名习惯、不合法的值、以及空值都通过定义好的数据清洗策略和清洗规则对“脏”数据进行清洗,从而得到满足数据质量要求的数据。
1.4数据清洗的基本流程
一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。
1.5数据清洗的策略
- 一般清洗策略
- 手工清洗策略,即人工修改
- 自动清洗策略,通过专门的程序进行修改
- 特定应用领域的清洗策略,根据概率统计学原理检测并修改数值异常记录
- 与特定应用领域无关的清洗策略,根据相关算法检测并删除重复记录
- 混合的数据清洗策略
以自动清洗为主。
1.6常见的数据清洗方法
常见的数据质量问题主要包括缺失值、重复值以及错误值等问题。
- 缺失值的清洗
忽略缺失数据和填充缺失数据。
- 重复值的清洗
基本思想是“排序和合并”。
- 错误值的清洗
运用统计分析的方法识别、使用简单的规则库等等。
1.7重点回顾
- 对原始数据进行有效的清洗是大数据分析过程中的关键环节。
- 数据的评价指标有数据的准确性、完整性、简洁性、适用性。适用性是核心准则。
- 数据的质量问题可以分为基于数据源的“脏”数据分类与基于清洗方式的“脏”数据分类。
- 数据清洗技术是提高数据质量的有效方法。
- 常见的数据质量问题主要包括缺失值、重复值以及错误值等问题。
- 重复值的清洗的基本思想是“排序和合并”。
- 数据清洗的基本流程:一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。