L1,L2正则化及权重衰减的理解

什么是正则化

对loss代价函数上添加上对w的惩罚项。

L1正则化和L2正则化

正则化区别

容易看出l1对w的限制远没有l2大。

正则化好处

1.使单个权重的范围变化不要太大,变得离0近一点,降低过拟合。

2.削弱值较大的参数,值较小的参数影响小,削弱贫富差距,使每个参数都有发光发热的机会,更容易找到最优点。

具体理解

正则化教程

整体来说正则化就是一种惩罚机制

上图1,展示了极端过拟合和极端欠拟合的情况,取决于图二公式的λ,λ=0,没有惩罚,此时w可以随意变换,从0~无穷,变换出一组极度拟合数据的曲线。如果λ=10000,此时惩罚非常大,loss想要小必须w都非常非常小接近0,范围0~0,此时如线b,是极端的欠拟合。

调整λ可以调整过拟合的程度,让w不至于太大,在一个合适的区间内,不让他有很高的灵活性,同时也不让w完全无法改变,达到解决过拟合的效果

在吴恩达的课程中可以了解到,线性回归(最终的任务不是分类)最终可以推出w每次更新时,是在原有基础上乘以了一个小于1的数,才导致能将w限制在一定的范围内。

l2正则化与权重衰减的关系

https://mp.csdn.net/mp_blog/creation/editor/new/128664452

在SGD中l2正则化实际就是权重衰减,但在其他复杂的优化器如adam中则不是,推荐使用权重衰减,我们在每次更新参数时让参数缩小,也就是乘以一个接近1的数,这也就生动地解释了为什么叫做权重衰减。在各种优化器(SGD,ADAM等)中权重衰减被广泛地运用了。

推导如下:

其中wd为权重衰减,w为所有参数,n为所有参与更新的参数的数量,wi为每一个参数

也就是

可以看到loss和wd两个式子经由推导是完全一样的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值