常用数据规范化方法: min-max规范化,零-均值规范化等

数据变换是数据准备的重要环节,将数据转换成适用于数据挖掘的形式。数据变换的常用方式:

  • 数据平滑:去除噪声,将数据离散化
  • 数据聚集:如sql中的聚集函数,count(), sum()
  • 数据概化:数据由较低概念 抽象为 较高概念
  • 数据规范化:统一尺度
  • 属性构造:构造新的属性 (特征工程)

相关代码地址
接下来,介绍数据规范化的几种方法:

1 Min-Max 规范化(最小-最大规范化)

将原始数据映射到 [0, 1] 之间:
(原始值 - 最小值) / (最大值 - 最小值)

  • 不适用场景:原始数据存在小部分 很大/很小的数据时,会造成大部分数据规范化后接近于 0/1,区分度不大

2 Z-Score规范化(零-均值规范化)

也称 标准差标准化,定义为:
(原始值 - 平均值)/ 标准差

得到的是:给定数据距离其均值多少个标准差

  • 变换后数据的 均值为0,方差为1
  • 结果没有实际意义,仅用于比较

3 小数定标规范化

通过移动小数点位置将数据变换至 [-1, 1],定义为:
原始值 / 10^k

  • k 取决于属性A取值中的最大绝对值

小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性 A 的取值中的最大绝对值。

相关代码地址github

sklearn 安装失败时,可尝试切换数据源 或 增加超时时间

pip3 --default-timeout=100 install sklearn -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
最小-最大规范化Min-Max normalization)和Z-score标准化(Z-score normalization)都是数据归一化的方法,下面简要介绍一下它们的区别和应用场景。 1. 最小-最大规范化Min-Max normalization):最小-最大规范化是将数据按照线性比例缩放到[0,1]的区间内。其公式为:$x_{new}=\frac{x-x_{min}}{x_{max}-x_{min}}$,其中$x_{new}$为归一化后的数据,$x_{min}$和$x_{max}$分别为数据集中的最小值和最大值。 最小-最大规范化适用于数据集中的数据分布比较均匀的情况。例如,当数据集中的数据都落在0-100的范围内时,可以使用最小-最大规范化数据归一化到[0,1]的范围内。 2. Z-score标准化(Z-score normalization):Z-score标准化是将数据按照均值为0、方差为1的比例缩放。其公式为:$x_{new}=\frac{x-\mu}{\sigma}$,其中$x_{new}$为标准化后的数据,$\mu$和$\sigma$分别为数据集的均值和标准差。 Z-score标准化适用于数据集中的数据分布比较不均匀的情况。例如,当数据集中的数据分布比较偏态或存在异常值时,可以使用Z-score标准化将数据归一化到均值为0、方差为1的标准正态分布中。 需要注意的是,不同的数据归一化方法对于不同的数据分布和问题可能会有不同的效果,因此需要根据具体问题选择合适的方法。同时,在使用数据归一化方法时,需要注意避免数据泄露问题,即在测试集中不能重新计算均值和标准差等统计量,而应该使用训练集中的统计量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值