多元梯度下降法演练(1)--特征缩放(特征归一化)
1.目的
将特征值归一化的目的是让代价函数收敛的速度变快。
2.怎么做
2.1 Feature Scaling(特征归一化)
2.1.1 公式
公式为: x i a = x i b x i m a x x_{ia}=\frac{x_{ib}}{x_{imax}} xia=ximaxxib我们希望将 x i x_i xi的范围控制在 − 1 ≤ x i ≤ 1 -1\leq x_i \leq 1 −1≤xi≤1
2.1.2 举例:
假设
x
1
x_1
x1的取值范围是(0,2000)
x
2
x_2
x2的取值范围为{0,1,2,3,4,5},因为
x
1
,
x
2
x_1,x_2
x1,x2取值范围的巨大差距,导致等值线为
可以看见其梯度下降是曲曲折折,路径走的很长。
如果我们将其归一化,即
x
1
=
x
1
2000
,
x
2
=
x
2
5
x_1=\frac{x_1}{2000},x_2=\frac{x_2}{5}
x1=2000x1,x2=5x2
那么其等值线为
收敛速度很快。
2.1.3 注意
并不需要完全严格的将其幅度控制在
±
1
\pm 1
±1之间,吴恩达教授给我们给出的是大的范围是
−
3
≤
x
i
≤
3
-3 \leq x_i \leq 3
−3≤xi≤3
小的范围是
−
1
3
≤
x
i
≤
1
3
-\frac{1}{3} \leq x_i \leq \frac{1}{3}
−31≤xi≤31
2.2 mean normalization(均值归一化)
2.2.1公式
公式为:
x
i
=
x
i
−
μ
i
x
i
m
a
x
−
x
i
m
i
n
x_i=\frac{x_i-\mu_i}{x_{imax}-x_{imin}}
xi=ximax−ximinxi−μi其中,
μ
i
\mu_i
μi为
x
i
x_i
xi的均值。
范围是
−
0.5
≤
x
i
≤
0.5
-0.5 \leq x_i \leq 0.5
−0.5≤xi≤0.5