数据中心化与归一化与标准化

设X是样本矩阵。

中心化

X-X.mean(axis=0)
:虽然看上式是一个矩阵减一个向量,但是numpy里有广播机制,不需要手动将X.mean(axis=0)复制多行使其和X形状一样。
每一个样本减去样本均值向量(每个分量是所对应特征的均值),只是将原始数据分布向坐标轴中心平移数据分布形状不变,中心化后的数据均值向量为0向量。

归一化

(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
几何直观来讲,就是直接将数据**”挤压“到0~1之间(想象四周拿板将数据推挤到0 ~ 1).。
显然,归一化
会破坏数据原始分布**,原始数据的”形状“一般和归一化后的数据都不一致了。任务中更经常用标准化。

标准化

(X-X.mean(axis=0))/X.std(axis=0)
不像归一化直接破坏了数据的分布,实际上隐含假设了数据大概率服从正太分布。

一张随便画的图

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值