数值归一化

最新推荐文章于 2024-05-03 22:05:55 发布

德乌大青蛙

最新推荐文章于 2024-05-03 22:05:55 发布

阅读量515

点赞数

分类专栏：机器学习算法 python 文章标签： python pandas 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45137294/article/details/123805484

版权

机器学习算法同时被 2 个专栏收录

11 篇文章 9 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

文章目录

引言
最值归一化
均值方差归一化

引言

假设肿瘤发生的概率和肿瘤大小及发现时间这2个特征有关，用欧拉距离计算样本1和样本2之间的距离，可以看出距离被发现时间这一特征所主导，这显然是不合理的，如果不对数据进行合理处理，最终计算的结果很有可能是有偏差的，不能反映出每一个特征的重要程度，因此要对数据进行归一化处理。所谓归一化处理就是将所有数据映射到同一尺度中。

在这里插入图片描述

最值归一化

最简单的方式称之为最值归一化，即将所有数据映射到0-1之间
在这里插入图片描述
这种方法适用于分布有明显边界的数据，例如，考试成绩，但这个方法受outline影响较大，例如工资普遍在1W以内，如果某个样本点为100W，这时大部分样本点都集中在0-0.01之间，这种情况映射的结果就不够好。
因此就引出了另一种方法，均值方差归一化。

均值方差归一化

均值方差归一化是吧所有数据映射到均值为0，方差为1的分布中。同时适用于分布没有明显边界以及有明显边界的数据。
在这里插入图片描述
其中，μ、σ分别为原始数据集的均值和方法。

x_data = (x_data-np.mena(x_data))/np.std(x_data)

德乌大青蛙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数值归一化

文章目录引言最值归一化均值方差归一化引言假设肿瘤发生的概率和肿瘤大小及发现时间这2个特征有关，用欧拉距离计算样本1和样本2之间的距离，可以看出距离被发现时间这一特征所主导，这显然是不合理的，如果不对数据进行合理处理，最终计算的结果很有可能是有偏差的，不能反映出每一个特征的重要程度，因此要对数据进行归一化处理。所谓归一化处理就是将所有数据映射到同一尺度中。最值归一化最简单的方式称之为最值归一化，即将所有数据映射到0-1之间这种方法适用于分布有明显边界的数据，例如，考试成绩，但这个方法受outli
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

德乌大青蛙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。