AI学习记录 - L2正则化详细解释（权重衰减）

victor-AI最好的学习方式是画图

于 2024-10-06 21:52:01 发布

阅读量122

点赞数 1

文章标签：人工智能学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43954090/article/details/142732262

版权

原因：

在神经网络训练的时候，权重可能会变得很大，或者变得很小，因为我们没有制定任何的限制，导致模型变很复杂，例如出现99，-100这种极端权重出现，因为可能拟合了奇怪的数据。一般情况下我看到权重大概都在-5到5之间。

机制：

在原有的损失函数的前提下，加多一个值（也可以理解为加多一个计算公式），使得损失值扩大。
在这里插入图片描述
我们知道一个定理：损失值越大，惩罚越大。

大的权重会导致更大的平方和，因此在正则化项中贡献更多的惩罚。小的权重虽然也会被惩罚，但相对贡献较小。
权重衰减的目的是鼓励模型学习到的权重保持较小的值，降低模型的复杂度，从而提升模型的泛化能力。

举个例子

weights = [[0.5, -0.2, 0.1],
           [0.3, 0.8, -0.5],
           [-0.7, 0.4, 0.6]]

这个权重矩阵有 3 行 3 列，共有 9 个权重值。我们将计算这些权重的平方和以及基于这个平方和的权重衰减。

首先，我们计算权重矩阵中所有权重的平方和：
在这里插入图片描述

逐项计算：
在这里插入图片描述

将它们加在一起：
在这里插入图片描述

设定权重衰减系数
假设我们设定权重衰减系数 λ=0.01。
Regularization Term=λ×Weight Sum of Squares
代入数值：
Regularization Term=0.01×2.09=0.0209

最终损失计算
假设我们有一个损失
L(θ)（例如，交叉熵损失）为 0.5。结合正则化项，最终的损失函数为：
在这里插入图片描述
总结
在这个例子中：

我们计算了权重的平方和为 2.09。
设置的权重衰减系数为 0.01。
计算得出的正则化项为 0.0209。
最终损失（包括正则化）为 0.5209。

结论

尽管小权重也会受到惩罚，但相对来说，较大的权重会对总损失产生更大的影响，导致优化算法优先处理它们。
权重衰减的目的是通过综合考虑所有权重的影响，促进更简单、泛化能力更强的模型。
在实际应用中，调整正则化强度（如 λ 值）可以帮助找到在避免过拟合和确保模型表现之间的平衡。

victor-AI最好的学习方式是画图

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。