表格数据如何做数据预处理

最新推荐文章于 2023-06-25 16:09:11 发布

前行follow

最新推荐文章于 2023-06-25 16:09:11 发布

阅读量1k

点赞数

分类专栏：数据竞赛文章标签：机器学习竞赛

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y1040468929/article/details/124124021

版权

数据竞赛专栏收录该内容

6 篇文章 1 订阅

订阅专栏

表格数据如何做数据预处理

处理缺失值

在这里插入图片描述

数据处理

在这里插入图片描述

数值无量纲化

定义：在机器学习算法实践中，我们往往有着将不同规格的数据转换到统一规格（例如：将数据归一化），或不同分布的数据转换到某个特定分布的需求（例如：深度学习中的Batch_Norm、Layer_Norm等），这种需求统称为数据无量纲化。

优点：在梯度和矩阵为核心的算法中，例如逻辑回归（求梯度）、神经网络（求梯度）、支持向量机（矩阵计算），无量纲化会加快求解速度；在距离类模型中，例如K近邻、K-means中，无量纲化可以帮我们提升模型精读，避免某一个取值范围特别大的特征对距离计算产生影响。

中心化数据

中心化(减去均值)
$x^{\prime} = x - \mu$
标准化
$x^{\star} = \frac{x-\mu}{\sigma}$
一般在数据处理中，会用标准化，将数据均值和方差变成0，1，但是不一定就是正态分布。如下图：

在这里插入图片描述

在这里插入图片描述

MinMax归一化（MinMax归一化容易受异常值的影响）
$x^{\star} = \frac{x-min(x)}{max(x)-min(x)}$

在这里插入图片描述

非中心化数据

由于中心化稀疏数据会破坏数据的稀疏结构，因此可以采用缩放稀疏输入是有意义的，尤其是在几个特征在不同的量级范围内时。

MaxAbsScaler通过除以绝对值的最大值，将数据映射到[-1,1]的范围；

面对有离群值的稀疏数据，可以采用RobustScaler，此缩放器删除了中位数并根据分位数范围（默认为IQR：intquartile范围）进行比较数据。

放器删除了中位数并根据分位数范围（默认为IQR：intquartile范围）进行比较数据。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
表格数据如何做数据预处理

表格数据如何做数据预处理处理缺失值数据处理数值无量纲化定义：在机器学习算法实践中，我们往往有着将不同规格的数据转换到统一规格（例如：将数据归一化），或不同分布的数据转换到某个特定分布的需求（例如：深度学习中的Batch_Norm、Layer_Norm等），这种需求统称为数据无量纲化。优点：在梯度和矩阵为核心的算法中，例如逻辑回归（求梯度）、神经网络（求梯度）、支持向量机（矩阵计算），无量纲化会加快求解速度；在距离类模型中，例如K近邻、K-means中，无量纲化可以帮我们提升模型精读，避免某一个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。