什么是正则化
对loss代价函数上添加上对w的惩罚项。
L1正则化和L2正则化
容易看出l1对w的限制远没有l2大。
正则化好处
1.使单个权重的范围变化不要太大,变得离0近一点,降低过拟合。
2.削弱值较大的参数,值较小的参数影响小,削弱贫富差距,使每个参数都有发光发热的机会,更容易找到最优点。
具体理解
整体来说正则化就是一种惩罚机制
上图1,展示了极端过拟合和极端欠拟合的情况,取决于图二公式的λ,λ=0,没有惩罚,此时w可以随意变换,从0~无穷,变换出一组极度拟合数据的曲线。如果λ=10000,此时惩罚非常大,loss想要小必须w都非常非常小接近0,范围0~0,此时如线b,是极端的欠拟合。
调整λ可以调整过拟合的程度,让w不至于太大,在一个合适的区间内,不让他有很高的灵活性,同时也不让w完全无法改变,达到解决过拟合的效果
在吴恩达的课程中可以了解到,线性回归(最终的任务不是分类)最终可以推出w每次更新时,是在原有基础上乘以了一个小于1的数,才导致能将w限制在一定的范围内。
l2正则化与权重衰减的关系
https://mp.csdn.net/mp_blog/creation/editor/new/128664452
在SGD中l2正则化实际就是权重衰减,但在其他复杂的优化器如adam中则不是,推荐使用权重衰减,我们在每次更新参数时让参数缩小,也就是乘以一个接近1的数,这也就生动地解释了为什么叫做权重衰减。在各种优化器(SGD,ADAM等)中权重衰减被广泛地运用了。
推导如下:
其中wd为权重衰减,w为所有参数,n为所有参与更新的参数的数量,wi为每一个参数
也就是
可以看到loss和wd两个式子经由推导是完全一样的。