一、范数
p
范
数
p范数
p范数:
x
=
[
x
1
,
x
1
,
.
.
.
x
n
]
T
x = [x_1,x_1,...x_n]^T
x=[x1,x1,...xn]T
那么向量x的
p
范
数
p范数
p范数就是:
∣
∣
x
∣
∣
p
=
(
∣
x
1
∣
p
+
∣
x
2
∣
p
+
.
.
.
+
∣
x
n
∣
p
)
1
/
p
||x||_p = (|x_1|^p+|x_2|^p+...+|x_n|^p)^{1/p}
∣∣x∣∣p=(∣x1∣p+∣x2∣p+...+∣xn∣p)1/p
二、L1范数与L2范数
L
1
范
数
L1范数
L1范数:
∣
∣
x
∣
∣
1
=
(
∣
x
1
∣
+
∣
x
2
∣
+
.
.
.
+
∣
x
n
∣
)
||x||_1 = (|x_1|+|x_2|+...+|x_n|)
∣∣x∣∣1=(∣x1∣+∣x2∣+...+∣xn∣)
L
1
范
数
L1范数
L1范数是向量中,各个元素绝对值之和,作用:让参数矩阵W稀疏化,可以做特征选择。
L
2
范
数
L2范数
L2范数:
∣
∣
x
∣
∣
2
=
(
∣
x
1
∣
2
+
∣
x
2
∣
2
+
.
.
.
+
∣
x
n
∣
2
)
1
/
2
||x||_2 = (|x_1|^2+|x_2|^2+...+|x_n|^2)^{1/2}
∣∣x∣∣2=(∣x1∣2+∣x2∣2+...+∣xn∣2)1/2
L
2
范
数
L2范数
L2范数是向量中,各个元素的平方和,然后求平方根,作用,让参数W的各个值都很小,防止过拟合,提高模型的泛化能力。
可以看到L1趋向于选择少量的特征,其他特征的权重为0,而,L2趋向于选择更多的特征,但是每个特征的权重都很小。
三、监督学习中的正则化
L1、L2在监督学习中,叫正则化,英文是regularization,单词的意思是规则化,即添加一些规则,限制模型的参数,让模型的参数不会太大。
minimize your error while regularizing your parameters,即在规则化参数的同时,最小化误差。当然,最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合。
正则化就是让我们的模型尽可能简单的解决我们的问题。
L1范数会使权值稀疏
L2范数会使模型参数不是很大,控制模型复杂度,防止过拟合
L2的引入,使得最优解向原点靠近,最优解的绝对值变小,这样对这个模型来说,复杂度变低了。
L2为啥叫权重衰减:
L
o
s
s
=
L
(
w
,
b
)
+
λ
/
2
∣
∣
w
∣
∣
2
Loss = L(w,b)+\lambda/2||w||^2
Loss=L(w,b)+λ/2∣∣w∣∣2
φ
L
o
s
s
φ
w
=
φ
L
(
w
,
b
)
φ
w
+
λ
w
\frac{\varphi Loss}{\varphi w} = \frac{\varphi L(w,b)}{\varphi w} + \lambda w
φwφLoss=φwφL(w,b)+λw
梯度在时间t更新参数:
w
t
+
1
=
w
t
−
η
φ
φ
w
t
w_{t+1} = w_t - \eta \frac{\varphi}{\varphi w_t}
wt+1=wt−ηφwtφ
w
t
+
1
=
(
1
−
η
λ
)
w
t
−
η
φ
L
(
w
t
,
b
t
)
φ
w
t
w_{t+1} = (1 - \eta \lambda)w_t - \eta \frac{\varphi L(w_t,b_t)}{\varphi w_t}
wt+1=(1−ηλ)wt−ηφwtφL(wt,bt)
通常
η
λ
<
1
\eta \lambda < 1
ηλ<1,也就是说,每次进行权重更新的时候,都把
w
t
w_t
wt变小,然后再沿着梯度的方向,走一点,所以叫权重衰退。