正则化的目的:解决过拟合的问题。减少泛化误差而不是训练误差,提升模型泛化能力。属于约束惩罚。
L2正则化(权值衰减),使权重更加的接近原点0,使训练参数越来越小。
公式:
L
=
E
i
n
+
λ
∑
j
w
j
2
L=E_{in}+\lambda\sum_jw_j^2
L=Ein+λ∑jwj2
相当于在损失的后面加上所有参数的一个平方和。
在二维平面相当于一个圆,既要保证在圆上又要保证使点更靠近
E
i
n
E_{in}
Ein的中心。
L1正则化公式:
L
=
E
i
n
+
λ
∑
j
∣
w
j
∣
L=E_{in}+\lambda\sum_j|w_j|
L=Ein+λ∑j∣wj∣
相当于加上所有参数的参数和的绝对值。
在二维平面相当于一个菱形,使
E
i
n
E_{in}
Ein相较于点(1,0),达到的解比较稀疏。
正则化和欠约束(不可逆)的关系:
当矩阵不可逆的时候加入正则化就可以变成可逆矩阵,解决收敛问题。