标准化，正则化，归一化介绍

最新推荐文章于 2024-03-11 00:00:00 发布

海涛从不浪

最新推荐文章于 2024-03-11 00:00:00 发布

阅读量5.7k

点赞数 4

分类专栏：人工智能

本文链接：https://blog.csdn.net/zjt597778912/article/details/117083219

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 标准化

标准化的公式：z-score

$\frac {(X-mean)} {std}$

计算时对每个属性（每列）分别进行。

每一列的每一个数都减去该列的均值，并除以该列的标准差。
得到的结果在 0 附近并且方差为 1 。

方法实现sklearn.preprocessing.scale()

from sklearn import preprocessing
import numpy as np

X = np.linspace(1,9,9).reshape((3,3))
'''
X = [[1. 2. 3.]
     [4. 5. 6.]
     [7. 8. 9.]]
'''
X = preprocessing.scale(X)
'''
X= [[-1.22474487 -1.22474487 -1.22474487]
   [ 0.          0.          0.        ]
   [ 1.22474487  1.22474487  1.22474487]]
'''

推算

标准差公式为：该列每个数减去平均值的平方求和，除以数的个数后开方 $\sqrt {\frac{\sum(x_i-mean)^2} n}$
第一列的均值为 $\frac {(1+4+7)} 3=4$
第一列的第一个数标准差为 $\sqrt \frac { {(1-4)^2+(4-4)^2+(7-4)^2}} 3 =\sqrt {6}$
第一列第一个数为 $\frac {1-4} {\sqrt {6}}=-1.22474487$

方法实现sklearn.preprocessing.StandardScaler()

sklearn里的封装好的算法使用前都要使用fit,为后续的API服务

from sklearn import preprocessing
import numpy as np

X = np.linspace(1,9,9).reshape((3,3))
'''
X = [[1. 2. 3.]
     [4. 5. 6.]
     [7. 8. 9.]]
'''
scaler = preprocessing.StandardScaler().fit(X) 
scaler.transform(X)
'''
X= [[-1.22474487 -1.22474487 -1.22474487]
   [ 0.          0.          0.        ]
   [ 1.22474487  1.22474487  1.22474487]]
'''

fit() 简单来说，就是求得训练集X的均值，方差，最大值，最小值,这些训练集X固有的属性。
在fit() 的基础上，进行标准化，降维，归一化等操作。

2. 正则化

正则化：

将每个样本缩放到单位范数，对每个样本计算其 p-范数，然后样本中每个数除以该范数

p-范数计算公式： $x_p= \sqrt[p]{\sum x_i^p}$

一般使用 l1-norm（p=1）或 l2-norm（p=2）
计算时对一个样本即一行数据

方法实现：sklearn.preprocessing.Normalizer()

from sklearn import preprocessing
import numpy as np

X = np.linspace(1,9,9).reshape((3,3))
'''
X = [[1. 2. 3.]
     [4. 5. 6.]
     [7. 8. 9.]]
'''
normalizer = preprocessing.Normalizer().fit(X)
normalizer.transform(X)
'''
X= [[0.26726124 0.53452248 0.80178373]
   [0.45584231 0.56980288 0.68376346]
   [0.50257071 0.57436653 0.64616234]]
'''

推算

默认是 l2-norm
第一行的 2-范数 $\sqrt {1^2+2^2+3^2}=\sqrt {14}$
第一行第一个数 $\frac 1 {\sqrt {14}}=0.26726124$

3. 归一化

将属性缩放到一个指定的范围

常见的min-max标准化也叫离差标准化

$X=\frac {X-min} {max-min}$
针对某个属性即一列数据

from sklearn import preprocessing
import numpy as np

X = np.linspace(1,9,9).reshape((3,3))
'''
X = [[1. 2. 3.]
     [4. 5. 6.]
     [7. 8. 9.]]
'''
min_max_scaler = preprocessing.MinMaxScaler().fit(X)
min_max_scaler.transform(X)
'''
X= [[0.  0.  0. ]
   [0.5 0.5 0.5]
   [1.  1.  1. ]]
'''

推算

第一列第一个数 $\frac {1-1} {7-1}=0$
第一列第二个数 $\frac {4-1} {7-1}=0.5$

海涛从不浪

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
标准化，正则化，归一化介绍

1. 标准化标准化的公式：z-scoreX=(X−mean)stdX = \frac {(X-mean)} {std}X=std(X−mean)计算时对每个属性（每列）分别进行。每一列的每一个数都减去该列的均值，并除以该列的标准差。得到的结果在 0 附近并且方差为 1 。方法实现sklearn.preprocessing.scale()from sklearn import preprocessingimport numpy as npX = np.linspace(1,9
复制链接

扫一扫