【机器学习】2. 数据预处理

最新推荐文章于 2024-09-30 13:17:10 发布

pen-ai

最新推荐文章于 2024-09-30 13:17:10 发布

阅读量966

点赞数 20

分类专栏：机器学习文章标签：机器学习人工智能大数据深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48846514/article/details/141467695

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

数据预处理

1. 两种变量属性
2. 数据集的类别
3. 数据清洗
4. 减少噪声的方法
5. 解决数据缺失的方法
6. 数据预处理

1. 两种变量属性

类型 (nominal) : 主要是姓名，ID之类的（categorical）
数值 (numeric)：连续的数值，比如房价，身高（continuous）

2. 数据集的类别

矩阵
序列数据，比如时间序列数据
图表, 比如分子结构(molecular structure)
空间数据（spatio - temporal）
事务型数据 (transaction data)

3. 数据清洗

原因：

数据不是完美的
有缺失的数据
噪音数据（虚假数据，不一致的数据，重复数据，干扰数据）

4. 减少噪声的方法

使用信号，图像处理和异常值检测技术
更换机器学习算法，选择对噪声鲁棒性更好的模型（即能够接受存在更多噪声的模型）

5. 解决数据缺失的方法

直接删除所有缺失数据

后果是会导致丢失很多数据来创建一个有效的模型

通过剩余的数据来估计缺失数据的值
- 类别数据（nominal）
  - 通过该变量的众数替代
  - 通过观察结果值（结果值无缺失的情况）。假如这组缺失数据的结果值是T，在所有结果为T的数据中找到最多的变量值，作为缺失值的替代。
- 数值数据（continuous）
  - 距离最近的几个数据的平均值进行替代。

6. 数据预处理

6.1 数据聚合

将两个或者多个变量进行合并。
目的：

减少内存和计算的开销，节约成本
改变规模，小规模可以变成大规模，比如班级变成学校
数据更加稳定，波动减少。比如购物，买猪肉，牛肉，变成肉。

缺点：

有可能丢失有用的一些细节

6.2 数据提取

数据提取是重要的任务，在原始数据中创建特征

要求专业知识，比如创建哪些特征能够有效判断是狗还是猫
数据可能需要转换到另一个空间，比如傅里叶变换（图像处理章节有介绍。）（fourier transform.）。在另一个空间中可能会显示其他有效特征。

6.3 数据子集选择

剔除无效，不相关的数据，选择有效充分的数据
对好的分类结果很重要
好的特征选择，能够提高准确率
使用更少的特征也意味着
- 更快建立分类器
- 能够更加精简，简单介绍分类规则

6.3.1 选择方法

暴力遍历（Brute force）: 尝试所有提取方式，用最好的结果
嵌入（Embedded）: 一些机器学习算法能够自动提取特征，比如决策树
筛选（Filter）：通过相关性，或者统计测量（如信息增益等）进行筛选
包装器（Wrapper）：通过机器学习方法来选择最好的特征（将某个机器学习算法作为黑盒子来评估不同的特征并且选择最好的。）

6.4 权重加权

能够替代数据剔除的方式
重要数据有更高的权重，可以手动加权或者自动加权（boosting）

6.5 数据类型转换

将类别数据（nominal）转换成数值（numeric）
转换成二值化数据（如0-1）
因为一些模型，只能接受类型数据，数值数据或者二进制数据。

6.5.1 二值化

类别 -> 整数 -> 二值化
数值 -> 类别 -> 整数 -> 二值化
二值化的类别：
(0,1,1) 可以两个1代表1类
或者one - hot (0,0,1)

6.6 离散化

数值型(numeric) -> 类别型 (nominal)

6.6.1 无监督离散化

equal width: 从左往右等距离分类
equal frequency: 从左往右等数量分类
clustering: 聚合：K-means

6.7 规范化和标准化(normalization and standardization)

将变量转换到新的范围中，比如（0，1）
避免大数值对小数值的影响
需要计算距离的机器学习算法常用，其他类型的机器学习算法也常常能够获得更好的评估效果。

6.7.1 normalization

x : 变量
x : 原始数据
x’: 新数据
$\frac{x - min(x)}{max(x) - min(x)}$

6.7.2 standardization

$\frac{x - \mu(x)}{\sigma(x)}$
σ: 标准差(standard deviation)
u: 均值(mean)

关注

20
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。