数据清洗(黑马程序员)第一章课后作业
一、填空题
1.对原始数据进行有效的 清洗 是大数据分析和应用过程中的关键环节。
2.数据质量的评价指标有准确性、 完整性 、简洁性、 适用性 。
3.数据质量的问题可以分为两类﹐分别是 基于数据源的 和基于清洗方式的“脏”数据分类。
4. 数据清洗 技术是提高数据质量的有效方法。
5.常见的数据质量问题主要包括缺失值、 重复值 以及错误值等问题。
二、判断题
1.直接使用原始数据不会影响数据决策的准确性和效率。(×)
2.从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立型‘脏’数据”和“依赖型‘脏’数据”两类。(√)
3.依赖型“脏”数据主要包括缺失数据和拼写错误数据等“脏”数据。(×)
4.数据清洗的目的是要将“脏”数据洗掉。(√)
5.基于数据源的“脏”数据分类的数据质量问题可以分为单数据源问题和多数据源问题。(√)
三、选择题
1.下列选项中, D 是评价数据质量的核心准则。
A.完整性
B.准确性
C.适用性
D、简洁性
2.下列策略中, ABCD 策略属于一般的数据清洗策略。
A.手工清洗
B.自动清洗
C.特定应用领域
D、与特定应用领域无关
3.下列说法中,关于清洗重复值的说法正确的是 C 。
A.清洗重复值的基本思想是“分而合之”B.清洗重复值的基本思想是“排序”
C.清洗重复值的基本思想是“排序和合并”D.清洗重复值的基本思想是“合并”
四、简答题
简述数据清洗的基本流程。
数据清洗的基本流程图: