简述为什么数据要进行标准化和scale函数的应用

最新推荐文章于 2022-08-06 23:28:32 发布

weixin_44128597

最新推荐文章于 2022-08-06 23:28:32 发布

阅读量1.2k

点赞数 1

分类专栏：数据标准化和归一化

本文链接：https://blog.csdn.net/weixin_44128597/article/details/103671728

版权

数据标准化和归一化专栏收录该内容

1 篇文章 0 订阅

订阅专栏

先自定义实现一下Scale Scale其本质上是一个线性的变化

from sklearn import preprocessing
import numpy as np
x=np.array([[10,112,2],[10,0,0],[0,30,-1]])
#求均值
X_mean=x.mean(axis=0)
X_std=x.std(axis=0)
print("这里自定义实现缩放",(x-X_mean)/X_std)
#求方差
#将每一个列都比昂其标准化的正态分布
x_scale=preprocessing.scale(x)
print(x_scale)
#结果为
这里自定义实现缩放 [[ 0.70710678  1.36606169  1.33630621]
 [ 0.70710678 -0.99990083 -0.26726124]
 [-1.41421356 -0.36616087 -1.06904497]]
[[ 0.70710678  1.36606169  1.33630621]
 [ 0.70710678 -0.99990083 -0.26726124]
 [-1.41421356 -0.36616087 -1.06904497]]

这里可以对比看出其实就是将数据进行缩放公式为 (X-Mean)/Std 中心化数据，那么到底为什么要中心化数据，首先我们了解机器学习是学习一个样本的特征那么我们先用代码来看一下缩放和位缩放的特征看变了没有

# 可视化数据展示
# 建立数据集列表
data_list = [x, x_scale]
# 创建颜色列表
color_list = ['blue', 'red']
# 创建标题样式
title_list = ['source data', 'scale']

# 设置画幅
plt.figure(figsize=(9, 6))
# 循环数据集和索引
for i, dt in enumerate(data_list):
    # 子网格
    plt.subplot(2, 3, i+1)
    # 数据画散点图
    plt.scatter(dt[:, 0], dt[:, 1], c=color_list[i])
    #???离群数据是怎么定义的
    #plt.xlim(-2,2)
    #plt.ylim(-3,3)
    # 设置标题
    plt.title(title_list[i])
# 图片储存 
#plt.savefig('xx.png')