数据清洗考试

苦学java只为一口饭吃

已于 2022-08-24 21:56:34 修改

阅读量2k

点赞数 1

分类专栏：考试文章标签：数据挖掘数据仓库数据库

于 2022-08-24 21:56:12 首次发布

本文链接：https://blog.csdn.net/weixin_51955084/article/details/126493003

版权

考试专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.数据采集
数据采集的ETL 工具负责将分布的、异构数据源中的不同种类和结构的数据如文本数据、关系数据以及图片、视频等非结构化数据等抽取到临时中间层后进行清洗、转换、分类、集成，最后加载到对应的数据存储系统如数据仓库中，成为联机分析处理、数据挖掘的基础。
- 数据采集的来源
根据MapReduce 产生数据的应用系统分类，大数据的采集主要有四种来源：管理信息系统、web信息系统、物理信息系统、科学实验系统。
- 数据采集的方法
①系统日志采集方法
②网络数据采集方法：对非结构化数据的采集
③其他数据采集方法
2.数据预处理
数据预处理是指在对数据进行数据挖掘的主要处理以前,先对原始数据进行必要的清理、集成、转换、离散、归约、特征选择和提取等一系列处理工作,达到挖掘算法进行知识获取研究所要求的最低规范和标准。
- 为什么要做数据预处理
数据挖掘的对象是从现实世界采集到的大量的各种各样的数据。由于现实生产和实际生活以及科学研究的多样性、不确定性、复杂性等，导致采集到的原始数据比较散乱，它们是不符合挖掘算法进行知识获取研究所要求的规范和标准的。
1.不一致——数据内涵出现不一致情况
2.重复
3.不完整——感兴趣的属性没有值
4.含噪声——数据中存在着错误、或异常(偏离期望值)的数据
5.高维度
- 数据预处理的过程
1.数据清洗——去掉噪声和无关数据
2.数据集成——将多个数据源中的数据结合起来存放在一个一致的数据存储中
3.数据变换——把原始数据转换成为适合数据挖掘的形式
4.数据归约——主要方法包括:数据立方体聚集，维归约，数据压缩，数值归约，离散化和概念分层等
- 数据清理-分箱
分箱方法通过考察数据的“近邻”（即，周围的值）来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值，因此它进行的是局部光滑。
用箱均值光滑：箱中每一个值被箱中的平均值替换。
用箱中位数平滑：箱中的每一个值被箱中的中位数替换。
用箱边界平滑：箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。
- 分箱的方法
分箱的方法:分箱前对记录集按目标属性值的大小进行排序
➢等深分箱法(统一权重)
在这里插入图片描述
➢等宽分箱法

➢用户自定义区间

➢最小熵
在这里插入图片描述

例题：向空中投掷硬币，落地后有两种可能的状态，一个是正面朝上，另一个是反面朝上，每个状态出现的概率为½。如投掷均匀的正六面体的骰子，则可能会出现的状态有 6 个，每一个状态出现的概率均为⅙。试通过计算来比较状态的不肯定性与硬币状态的不肯定性的大小。

H(硬币)= -sum^{n}_{i=1}P(Xi) log P(Xi)

= -(2×½)×logP2(½)≈1(比特)

H(骰子)= -sum^{n}_{i=1}P(Xi) log P(Xi)

= -6×(⅙)×logP2(⅙)≈2.6(比特)

由以上计算可以得出两个推论：

[推论 1] 当且仅当某个 P(Xi)=1，其余的都等于 0 时， H(X)= 0。

[推论 2] 当且仅当某个 P(Xi)=1/n，i=1， 2，……， n 时，H(X) 有极大值 log n。 数值属性是可度量的量，用整数或实数值表示，有区间标度和比率标度两种类型。

在这里插入图片描述
- 数据集成
将来自多个数据源的数据合并，形成一致的数据存储，如将不同数据库中的数据集成到一个数据仓库中存储。有时数据集成之后还需要进行数据清理，以便消除可能存在的数据冗余。
1.模式匹配
2.数据冗余
3.数据值冲突
-数据变换
主要是将数据转换成适合于挖掘的形式，如将属性数据按比例缩放，使之落入一个比较小的特定区间，这一点对那些基于距离的挖掘算法尤为重要。数据变换的具体方法包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造。
-数据变换-规范化
将数据按比例进行缩放，使之落入一个特定的区域，以消除数值型属性因大小不一而造成挖掘结果的偏差。如将工资收入属性值映射到[-1.0, 1. 0]范围内。
■方法:
(1)最小-最大规范化
(2)零-均值规范化( z-score规范化)
(3)小数定标规范化
3.数据脱敏
数据脱敏也叫数据的去隐私化，在我们给定脱敏规则和策略的情况下，对敏感数据比如手机号、银行卡号等信息，进行转换或者修改的一种技术手段，防止敏感数据直接在不可靠的环境下使用。
- 数据脱敏原则
数据脱敏不仅要执行“数据漂白”，抹去数据中的敏感内容，同时也需要保持原有的数据特征、业务规则和数据关联性，保证开发、测试以及大数据类业务不会受到脱敏的影响，达成脱敏前后的数据一致性和有效性。
- 数据脱敏方法
数据脱敏的方法主要包括：
（1）数据替换。（2）无效化。（3）随机化。
（4）偏移和取整。（5）掩码屏蔽。（6）灵活编码。
4.数据仓库中的数据集成
1.传统的数据仓库
数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策：
（1）面向主题。
（2）集成。
（3）相对稳定。
（4）反映历史变化。
综上所述，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库是为捕获数据而设计，数据仓库是为分析数据而设计。
一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器、前端工具和应用等四个部分。
2.实时主动数据仓库
实时主动数据仓库是一个集成的信息存储仓库，既具备批量和周期性的数据加载能力（采用ETL技术），也具备数据变化的实时探测、传播和加载能力（采用CDC技术），并能结合历史数据和新颖数据实现查询分析和自动规则触发，从而提供对战略决策和战术决策的双重支持。
在这里插入图片描述

在这里插入图片描述

5.数据规约

在不影响挖掘结果的前提下，通过数值聚集、删除冗余特性的办法压缩数据，提高挖掘模式的质量，降低时间复杂度。
- 数据规约的方法
1.数据立方体聚集:
2.维归约
3.数据压缩
4.数值归约
5.离散化和概念分层生成

- 数值归约——用较小的数据表示数据，或采用较短的数据单位，或者用数据模型代表数据，减少数据量。
常用的方法：

直方图
用聚类数据表示实际数据
抽样（采样)
参数回归法
自然划分分段

向应用3-4-5规则具体步骤如下:
(1）属性的最小最大值分别为:MIN =-351,976元、MAX= 4,700,896而根据以上计算结果,取值5%至95%的区间范围(边界)应为:LOW=-159,876元、HIGH = 1,838,761元.
(2)依据LOW 和 HIGH及其取值范围，确定该取值范围应按1,000,000元单位进行区间分解,从而得到:LOw’-L.000,000元, HIGH’=2,000,000元
(3)由于 LOW‘与 HIGH’之间有3个不同值,即(2,000,000 - (-1,000,000 ))/1 ,000,000=3。将LOW‘与 HIGH’之间区间分解为三个等宽小区间，它们分别是(-1,000,000元-0元]、(0元- 1,000,000元]、(1,000,000元-2,000.000元]作为概念树的最高层组成。
(4)现在检查原来属性的MIN和MAX值与最高层区间的联系。MIN值落入(-1,000,000元-0元],因此调整左边界，对MIN取整后得-400,000元，所以第一个区间(最左边区间）调整为(-400,000 -0元]。而由于MAX值不在最后一个区间(L000,000元 -2,000,000元]，因此需要新建一个区间(最右边区间),对MAX值取整后得5,000,000元,因此新区间就为(2,000,000元-5,000,000元],这样概念树最高层就最终包含四个区间,它们分别是:(-400,000元-0元]、（0元-1,000,000元]、(1,000,000元-2,000,000元].(2,000,000元-5,000,000元]
(5）对上述分解所获得的区间继续应用3-4-5规则进行分解,以构成概念树的第二层区间组成内容。即:
第一个区间: (-400,000元-0元]分解四个子区间,它们分别是(-400,000元–300,000元]· (-300,000元–200,000元]、(-200,000元–100,000元]和(-100,000元-0元]
第二个区间: (0元-1,000,000元]分解五个子区间,它们分别是(0元-200.000元](200,000元 400.000元]:(400,000元-600,000元]、(600,000元-800,000元]和( 800,000元=1,000,000元]
第三个区间: (1,000,000元- 2,000,000元]分解五个子区间,它们分别是(1.000,000元–1,200,000元]、(1,200,000元-1,400,000元]、(1,400,000元-1,600,000元]、(1,600,000元-1,800,000元]和(1,800,000元-2,000,000元]
第四个区间: (2,000,000元- 5,000,000元]分解三个子区间,它们分别是(2,000,000元- -3,000,000元]、( 3,000,000元 - 4,000,000元]和(4,000,000元-5,000,000元]

6.数据集成方法

实时主动数据仓库中，数据集成方式包括：
（1）数据整合（Data Consolidation）
（2）数据联邦（Data Federation）
（3）数据传播（Data Propagation）
（4）混合方式（Hybrid Approach）

7.数据分发方式

数据分发是数据集成过程的一个重要组成部分。目前，大致存在如下几种数据分发方式：
1.推(push)和拉(pull)；
2.周期和非周期；
3.一对一和一对多。

8.数据集成技术

有多种技术可以为实时主动数据仓库提供数据集成服务，比如脚本、ETL、EAI和CDC。但是，只有部分技术能提供实时(连续)的数据集成。

9.ETL基本模块

ETL处理分为三大模块，分别是数据抽取、数据清洗与转换、数据加载。各模块可灵活进行组合，形成ETL处理流程（如图6-3所示）。
在这里插入图片描述
- ETL主要有四种实现模式：
触发器模式
增量字段
全量同步
日志比对

10.CDC

CDC（Change Data Capture）提供了连续变化数据的捕捉和分发能力，并且只需要很低的开销和时间延迟。CDC在提交的数据事务上进行操作，从OLTP系统中捕获变化的数据，再进行基本的转换，最后把数据发送到数据仓库中。虽然在体系结构上，CDC属于异步的，但它表现出类似同步的行为，数据延迟只有不到1秒的时间，同时能够维护数据事务的一致性。
- CDC具有以下三个特性：
（1）没有宕机时间。
（2）保持数据新颖性。
（3）减少系统开销。

11.单选

1.转换创建并保存后的文件后缀名是( )。
A.ktr B.kjb
C.kbj D.krt

2.下列合并多个数据集说法错误的是? ( )
A.pandas.merge基于一个或多个键连接多个DataFrame中的行
B.pandas.concat 按行或按列将不同的对象叠加到一起
C.pandas.merge 默认的合并操作使用的是inner join，通过传递how参数修改为outer join
D.concat函数的axis参数值为0,表示沿着横轴串接,生成一个新的Series对象

3.以下说法错误的是( )。
A.去除重复数据时若需要保留最后一个值需要keep='last’参数
B.调用duplicated 方法可以对重复数据去除
C.使用去除重复数据步骤必须先排序
D.Kettle提供了去除不完全重复数据的步骤

4.影响数据质量问题的因素有哪些( )。
A.准确性、完整性、一致性 B.相关性、时效性
C.可信性、可解释性 D.以上都是

5.以下说法错误的是( )。
A.主成分分析、属性子集选择为维归约方法.
B.直方图、聚类、抽样和数据立方体聚集为数量归约方法。
C.用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。
D.数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这―精简数据集保持原有数据集的完整性。

6.以下说法错误的是( )。
A.数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约.
B.数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用。
C.冗余数据的删除既是一种数据清理形式，也是一种数据归约。
D.整个预处理过程要尽量人机结合，尤其要注重和客户以及专家多交流。

7.名词解释：

min-max标准化
在这里插入图片描述

（2）对数Logistic模式、
对数Logistic模式：新数据=1/（1+e^(-原数据)）
（3）模糊量化模式、
新数据=1/2+1/2sin[派3.1415/（极大值-极小值）*（X-（极大值-极小值）/2） ] ,X为原数据
（4）主成分分析
PCA的本质就是找一些相互正交的投影方向的方差。计算原始数据在这些正交基上投影的方差越大，则说明在对应正交基上的信息量越多。
原始数据协方差矩阵的特征值越大，对应的方差越大，在对应的特征向量上投影的信息量就越大，就是主成分。
8.描述数据抽取定义及实现方式。
数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中，数据源较多采用的是关系数据库。数据抽取的方式分为全量抽取和增量抽取
全量抽取类似于数据迁移或数据复制，它将数据源中的表或视图的数据原封不动的从数据库中抽取出来，并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL 使用过程中，增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求：准确性，能够将业务系统中的变化数据按一定的频率准确地捕获到；性能，不能对业务系统造成太大的压力，影响现有业务。
数据抽取方式
1.触发器方式（又称快照式）
2.时间戳方式
3.全表删除插入方式
4.全表比对方式
5.日志表方式
9.数据采集平台有哪些?
1.结构化数据的数据实时同步复制
2.Sqoop和Flume数据采集和集成
3.开源DataX数据采集和集成
4.自实现数据采集平台
5.流处理模式
10.数据清洗有哪些流程?
预处理阶段：数据导入处理工具，看元数据，包括字段解释、数据来源，
第一步：确定缺失值范围，缺失值清洗，去除不需要的字段，填充缺失内容，重新取数
第二步：格式内容清洗
时间、日期、数值、全半角等显示格式不一致，内容中有不该存在的字符，内容中有不该存在的字符
第三步：逻辑错误清洗
去重，去除不合理值，修正矛盾内容
第四步：非需求数据清洗
把不要的字段删了。
第五步：关联性验证
设计数据脱敏的过程