口语表述:
- 模型过拟合了,也就是说训练出来的函数太复杂了。而衡量一个函数的复杂度可以通过函数与零的距离。
- 如何衡量函数与零的距离?一种简单的方法是是通过线性函数中的权重向量的某个范数来度量其复杂性,而最常用的就是L2范数。
- 将其范数作为另一个惩罚项加到最小化损失的问题中,将原来的训练目标调整为最小化预测损失和惩罚项之和
- 使用平方范数而不是标准范数是为了便于计算导数
- 1/2 是为了求导后简洁
- 正则化常数 λ (非负)来描述两个惩罚项的权衡
- L2正则化也称为权重衰减,是因为 L2 正则化回归的小批量随机梯度下降更新如下式:
现在 w 前有了一个小于1的系数,更新的同时也在试图将 w 的大小缩小到零