L1,L2正则化及权重衰减的理解

wa1ttinG

已于 2023-04-09 19:32:37 修改

阅读量419

点赞数

分类专栏：深度学习文章标签：深度学习 python 人工智能 Powered by 金山文档

于 2023-03-17 20:04:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zxyovo/article/details/128662766

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

什么是正则化

对loss代价函数上添加上对w的惩罚项。

L1正则化和L2正则化

正则化区别

容易看出l1对w的限制远没有l2大。

正则化好处

1.使单个权重的范围变化不要太大，变得离0近一点，降低过拟合。

2.削弱值较大的参数，值较小的参数影响小，削弱贫富差距，使每个参数都有发光发热的机会，更容易找到最优点。

具体理解

正则化教程

整体来说正则化就是一种惩罚机制

上图1，展示了极端过拟合和极端欠拟合的情况，取决于图二公式的λ，λ=0，没有惩罚，此时w可以随意变换，从0~无穷，变换出一组极度拟合数据的曲线。如果λ=10000，此时惩罚非常大，loss想要小必须w都非常非常小接近0，范围0~0，此时如线b，是极端的欠拟合。

调整λ可以调整过拟合的程度，让w不至于太大，在一个合适的区间内，不让他有很高的灵活性，同时也不让w完全无法改变，达到解决过拟合的效果

在吴恩达的课程中可以了解到，线性回归(最终的任务不是分类)最终可以推出w每次更新时，是在原有基础上乘以了一个小于1的数，才导致能将w限制在一定的范围内。

l2正则化与权重衰减的关系

https://mp.csdn.net/mp_blog/creation/editor/new/128664452

在SGD中l2正则化实际就是权重衰减，但在其他复杂的优化器如adam中则不是，推荐使用权重衰减，我们在每次更新参数时让参数缩小，也就是乘以一个接近1的数，这也就生动地解释了为什么叫做权重衰减。在各种优化器(SGD,ADAM等)中权重衰减被广泛地运用了。

推导如下：

其中wd为权重衰减，w为所有参数，n为所有参与更新的参数的数量，wi为每一个参数

也就是

可以看到loss和wd两个式子经由推导是完全一样的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。