表格数据如何做数据预处理

表格数据如何做数据预处理

处理缺失值

在这里插入图片描述

数据处理

在这里插入图片描述

数值无量纲化

定义:在机器学习算法实践中,我们往往有着将不同规格的数据转换到统一规格(例如:将数据归一化),或不同分布的数据转换到某个特定分布的需求(例如:深度学习中的Batch_Norm、Layer_Norm等),这种需求统称为数据无量纲化。

优点:在梯度和矩阵为核心的算法中,例如逻辑回归(求梯度)、神经网络(求梯度)、支持向量机(矩阵计算),无量纲化会加快求解速度;在距离类模型中,例如K近邻、K-means中,无量纲化可以帮我们提升模型精读,避免某一个取值范围特别大的特征对距离计算产生影响。

中心化数据

  • 中心化(减去均值)
    x ′ = x − μ x^{\prime} = x - \mu x=xμ

  • 标准化
    x ⋆ = x − μ σ x^{\star} = \frac{x-\mu}{\sigma} x=σxμ
    一般在数据处理中,会用标准化,将数据均值和方差变成0,1,但是不一定就是正态分布。如下图:

在这里插入图片描述

在这里插入图片描述

  • MinMax归一化(MinMax归一化容易受异常值的影响)
    x ⋆ = x − m i n ( x ) m a x ( x ) − m i n ( x ) x^{\star} = \frac{x-min(x)}{max(x)-min(x)} x=max(x)min(x)xmin(x)

在这里插入图片描述

非中心化数据

由于中心化稀疏数据会破坏数据的稀疏结构,因此可以采用缩放稀疏输入是有意义的,尤其是在几个特征在不同的量级范围内时。

MaxAbsScaler通过除以绝对值的最大值,将数据映射到[-1,1]的范围;

面对有离群值的稀疏数据,可以采用RobustScaler,此缩放器删除了中位数并根据分位数范围(默认为IQR:intquartile范围)进行比较数据。

放器删除了中位数并根据分位数范围(默认为IQR:intquartile范围)进行比较数据。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值