L1与L2正则的联系与区别

最新推荐文章于 2024-05-12 10:46:29 发布

yftadyz

最新推荐文章于 2024-05-12 10:46:29 发布

阅读量718

点赞数 1

分类专栏：深度学习文章标签：机器学习深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yftadyz/article/details/107567485

版权

深度学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

目录

前言
L1正则和L2正则的区别
L1正则为什么更容易得到稀疏解
正则的作用

前言

在机器学习领域，L1、L2正则是防止过拟合的利器。本文主要梳理一下L1正则和L2正则的关系，主要包括回答以下几个问题：
1、L1正则和L2正则的区别
2、L1正则为什么更容易得到稀疏解
3、正则的作用

L1正则和L2正则的区别

对于这个问题，可以看下知乎的这个解答https://zhuanlan.zhihu.com/p/35356992

L1更容易得到稀疏解，就是参数会出现很多零；L2会使得参数取值更加平滑，即参数取值会比较小；从实际应用效果来看，L2效果比较好。

L1正则为什么更容易得到稀疏解

关于这个问题，可以看这个 https://www.zhihu.com/question/37096933

L2正则更新参数时，会在参数前乘以一个小于1的系数，因而会变得越来越小；L1正则对参数求导的话，当正则系数大于零处的导数时，零就是极小值点，因而好多参数会变为零。

正则的作用

怎么评估模型的推广能力呢？假设我们有待预测的数据点 $(x, y)$ ， $y$ 是真实取值， $f$ 是模型， $f (x)$ 就是模型预测值。模型的推广能力使用模型预测的期望残差来衡量，期望是基于模型的分布计算的。使用不同的训练数据就可以得到不同的模型，而训练数据是有概率分布的，因而不同的模型出现的概率就不同。

$E_f(f(x)-y)^2=(E_ff(x)-y)^2+E_f(f(x)-E_ff(x))^2$

等号右边儿第一项叫做bias，第二项叫做variance。模型越复杂，即模型参数越多，bias越小，variance越大；反之，模型越简单，bias越大，variance越小。

所以通常当模型复杂度适中的时候，即模型参数不要太多也不要太少，会有比较好的推广能力。对于深度学习模型来说，模型参数相对于训练数据来说往往都太多了，这时使用正则就可以减少模型参数从而提升模型的推广能力。L1正则会使许多参数变为零，L2正则虽然不会使参数变为零，但是会使参数变得很小，亦可以降低模型复杂度。所以L1/L2正则都可以提升模型的推广能力。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
L1与L2正则的联系与区别

目录前言L1正则和L2正则的区别L1正则为什么更容易得到稀疏解正则的作用前言本文主要梳理一下L1正则和L2正则的关系，主要包括回答以下几个问题：1、L1正则和L2正则的区别2、L1正则为什么更容易得到稀疏解3、正则的作用L1正则和L2正则的区别对于这个问题，可以看下知乎的这个解答https://zhuanlan.zhihu.com/p/35356992L1更容易得到稀疏解，就是参数会出现很多零；L2会使得参数取值更加平滑，即参数取值会比较小；从实际应用效果来看，L2效果比较好。L1正则为什
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。