数据规范化(归一化)方法

数据挖掘中,在训练模型之前,需要对特征进行一定的处理,最常见的处理方式之一就是数据的规范化。数据的规范化的作用主要有两个:去掉量纲,使得指标之间具有可比性;将数据限制到一定区间,使得运算更为便捷。归一化就是典型的数据规范化方法,常见的数据规范化方法如下:

1线性函数归一化(Min-Max scaling)

  线性函数将原始数据线性化的方法转换到[0, 1]的范围。计算公式如下:


在不涉及距离度量、协方差计算、数据不符合正太分布的时候,使用该方法比较好。

20均值标准化(Z-score standardization)

0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集[0, 1]范围)。计算公式如下:


  在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维、涉及到正态分布的时候使用该方法较好。

3、均值绝对偏差标准化

  将方法2中的方差改为绝对偏差,则得到均值绝对偏差。

4、对数变换

  在实际工程中,经常会有类似点击次数/浏览次数的特征,这类特征是长尾分布的,可以将其用对数函数进行压缩。特别的,在特征相除时,可以用对数压缩之后的特征相减得到。对数规范化的常见形式是:

5、小数定标

      小数定标主要是对单位的换算和进制的转换,使得数据得到一定的简化与压缩。

6、三角函数

  三角函数的值在[0, 1]之间,如果有需要,可以用三角函数进行变换。

7sigmoid函数,

      sigmoid函数,也称S型函数,可以对数据进行有效的压缩。特别的,S型函数在逻辑回归中起着决定性作用。

  • 4
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值