为什么说L2正则化可以防止过拟合,为什么引入L2可以对权重进行惩罚

在学习L2正则化的时候得到的一点心得体会,作为学习笔记,仅供参考。

个人理解,凡是可以减少过拟合的方法都可以称为正则化。

在深度学习中,L2正则(L1也可类似)是将权重w减小,对权重进行了惩罚,那么这是如何做到的?

这里我们假设原损失函数为:

J(w,b)

权重更新如下式所示,公式中w是权重,\eta是学习率:

w:w-\eta\bigtriangledown J(w)

现在给原损失函数添加L2正则化,首先知道L2是欧式距离,2范数,那么可得:

\widetilde{J}(w,b)=J(w,b)+\lambda \left \| w \right \|_{2}

\widetilde{J}(w,b)是添加正则化后的损失函数,\lambda是引入的正则化系数,\left \| w \right \|_{2}为引入的L2正则项。

其中\left \| w \right \|_{2}还可以写成w^{T}w(用矩阵表示)。那么上式就可以变为如下所示:

\widetilde{J}(w,b)=J(w,b)+\lambda w^{T}w

 由于要对w求导,所以最后一项w^{T}w求导前面会产生一个系数2,为了简化运算,可将系数\lambda写成\frac{\alpha }{2}

则可以写为:

 \widetilde{J}(w,b)=J(w,b)+\frac{\alpha }{2}w^{T}w

则现在的权重更新为:

w:w-\eta \frac{\partial \widetilde{J}(w)}{\partial w}

=w-\eta (\partial J(w)+\alpha w)

=(1-\eta \alpha )w-\eta\bigtriangledown J(w)

现在可以与原来的权重更新相比,可以看出在第一项对权重进行了缩减。那么为什么权重的衰减又可以防止过拟合呢?或是为什么加一些惩罚项就可以防止过拟合呢?其实可以这样理解(个人的一些看法),如果我们把损失函数通过泰勒展开,那么我们会得到很多的高次项,而也正是因为这些高次项,所以容易导致过拟合,那么我们就可以对高次项进行惩罚,让它尽可能的小或者对整体的贡献尽可能的小,如此一来就可以防止过拟合啦。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱吃肉的鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值