机器学习-常见的数据预处理

最新推荐文章于 2025-09-23 20:05:10 发布

yehui_qy

最新推荐文章于 2025-09-23 20:05:10 发布

阅读量2w

点赞数 8

分类专栏：数据分析

数据分析专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了数据挖掘中数据预处理的重要性和基本原则，探讨了数据清洗、数据集成、数据变换和数据规约的具体方法，旨在解决原始数据中存在的不一致性、重复性、噪声等问题。

一、背景

原始数据存在的几个问题：不一致；重复；含噪声；维度高。

1.1 数据挖掘中使用的数据的原则

尽可能赋予属性名和属性值明确的含义；
去除惟一属性；
去除重复性；
合理选择关联字段。

1.2 常见的数据预处理方法

数据清洗：数据清洗的目的不只是要消除错误、冗余和数据噪音，还要能将按不同的、不兼容的规则所得的各种数据集一致起来。
数据集成：将多个数据源中的数据合并，并存放到一个一致的数据存储（如数据仓库）中。这些数据源可能包括多个数据库、数据立方体或一般文件。
数据变换：找到数据的特征表示，用维度变换来减少有效变量的数目或找到数据的不变式，包括规格化、规约、切换和投影等操作。
数据规约：是在对发现任务和数据本身内容理解的基础上，寻找依赖于发现目标的表达数据的有用特征，以缩减数据模型，从而在尽可能保持数据原貌的前提下最大限度的精简数据量，主要有两个途径：属性选择和数据抽样，分别针对数据库中的属性和记录。

二、数据清洗

2.1 缺失值处理的两种方法

删除法，根据数据处理的不同角度，删除法可分为以下4种：

（1）删除观测样本
（2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除
（3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析；
（4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加工，可以降低删除数据带来的偏差。

插补法：在条件允许的情况下，找到缺失值的替代值进行插补，尽可能还原真实数据是更好的方法。常见的方法有均值插补、回归插补、二阶插补、热平台、冷平台等单一变量插补。

（1）均值法是通过计算缺失值所在变量所有非缺失观测值的均值，使用均值来代替缺失值的插补方法。
（2）均值法不能利用相关变量信息，因此会存在一定偏差，而回归模型是将需要插补变量作为因变量，其他相关变量作为自变量，通过建立回归模型预测出因变量的值对缺失变量进行插补。
（3）热平台插补是指在非缺失数据集中找到一个与缺失值所在样本相似的样本（匹配样本），利用其中的观测值对缺失值进行插补。
（4）在实际操作中，尤其当变量数量很多时，通常很难找到与需要插补样本完全相同的样本，此时可以按照某些变量将数据分层，在层中对缺失值使用均值插补，即采取冷平台插补法。

2.2 噪声数据处理

噪声是一个测量变量中的随机错误和偏差，包括错误值或偏离期望的孤立点值。

噪声检查中比较常见的方法：
- （1）通过寻找数据集中与其他观测值及均值差距最大的点作为异常
- （2）聚类方法检测，将类似的取值组织成“群”或“簇”，落在“簇”集合之外的值被视为离群点。
在进行噪声检查后，通常采用分箱、聚类、回归、计算机检查和人工检查结合等方法“光滑”数据，去掉数据中的噪声。

分箱：分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。

2.2.1 分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

等深分箱法（统一权重）：将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

设定权重（箱子深度）为4，分箱后
箱1：800 1000 1200 1500
箱2：1500 1800 2000 2300 
箱3：2500 2800 3000 3500
箱4：4000 4500 4800 5000

等宽分箱法（统一区间）：使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

设定区间范围（箱子宽度）为1000元人民币，分箱后
箱1：800 1000 1200 1500 1500 1800
箱2：2000 2300 2500 2800 3000
箱3：3500 4000 4500
箱4：4800 5000

用户自定义区间：用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组，分箱后
箱1：800 
箱2：1000 1200 1500 1500 1800 2000 
箱3：2300 2500 2800 3000  
箱4：3500 4000 
箱5：4500 4800 5000