为什么说L2正则化可以防止过拟合，为什么引入L2可以对权重进行惩罚

爱吃肉的鹏

已于 2022-02-24 15:56:59 修改

阅读量2.1k

点赞数 7

文章标签：机器学习深度学习算法

于 2022-01-20 14:57:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z240626191s/article/details/122600860

版权

在学习L2正则化的时候得到的一点心得体会，作为学习笔记，仅供参考。

个人理解，凡是可以减少过拟合的方法都可以称为正则化。

在深度学习中，L2正则(L1也可类似)是将权重w减小，对权重进行了惩罚，那么这是如何做到的？

这里我们假设原损失函数为：

$J(w,b)$

权重更新如下式所示,公式中w是权重， $\eta$ 是学习率：

$w:w-\eta\bigtriangledown J(w)$

现在给原损失函数添加L2正则化，首先知道L2是欧式距离，2范数，那么可得：

$\widetilde{J}(w,b)=J(w,b)+\lambda \left \| w \right \|_{2}$

$\widetilde{J}(w,b)$ 是添加正则化后的损失函数， $\lambda$ 是引入的正则化系数， $\left \| w \right \|_{2}$ 为引入的L2正则项。

其中 $\left \| w \right \|_{2}$ 还可以写成 $w^{T}w$ (用矩阵表示)。那么上式就可以变为如下所示：

$\widetilde{J}(w,b)=J(w,b)+\lambda w^{T}w$

由于要对w求导，所以最后一项 $w^{T}w$ 求导前面会产生一个系数2，为了简化运算，可将系数 $\lambda$ 写成 $\frac{\alpha }{2}$ 。

则可以写为：

$\widetilde{J}(w,b)=J(w,b)+\frac{\alpha }{2}w^{T}w$

则现在的权重更新为：

$w:w-\eta \frac{\partial \widetilde{J}(w)}{\partial w}$

$=w-\eta (\partial J(w)+\alpha w)$

$=(1-\eta \alpha )w-\eta\bigtriangledown J(w)$

现在可以与原来的权重更新相比，可以看出在第一项对权重进行了缩减。那么为什么权重的衰减又可以防止过拟合呢？或是为什么加一些惩罚项就可以防止过拟合呢？其实可以这样理解(个人的一些看法)，如果我们把损失函数通过泰勒展开，那么我们会得到很多的高次项，而也正是因为这些高次项，所以容易导致过拟合，那么我们就可以对高次项进行惩罚，让它尽可能的小或者对整体的贡献尽可能的小，如此一来就可以防止过拟合啦。

爱吃肉的鹏

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱吃肉的鹏 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。