知识积累（二）：损失函数正则化与权重衰减

最新推荐文章于 2024-08-05 17:47:00 发布

简简单单的貔貅

最新推荐文章于 2024-08-05 17:47:00 发布

阅读量358

点赞数 4

分类专栏：知识积累文章标签：深度学习

本文链接：https://blog.csdn.net/zhuzaiyebol/article/details/136258842

版权

知识积累专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了欧氏距离和L2范数在相似性度量中的应用，重点讲解了正则化尤其是L2正则化的概念，阐述了它如何通过权重衰减来限制模型复杂度，防止过拟合，以及其在神经网络中的作用。

摘要由CSDN通过智能技术生成

本文只介绍 L2 正则化。

1. 欧氏距离与L2范数

欧氏距离也就是L2范数

1.1 常用的相似性度量

1）点积
2）余弦相似度
3）L1和L2

2. 什么是正则化？

正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。
2.1 正则化如何影响模型复杂度
1）loss（w，b）是 w 和 b 的函数。（这里的 w 和 b 简单理解就是 y = wx+b）
2）机器学习本质：损失函数找到最优解（损失函数最小点）。找最优解的过程就是参数 w 的不断梯度下降的过程。
即 w = w - lr *（loss对于w的梯度）
其中，lr是学习率。
3）整个网络模型本身是 w 和 b 的函数，b是偏置项，不在正则化考虑范围内。所以正则化就是通过约束模型的参数w来限制模型的复杂度。

2.2 L2正则化为什么叫权重衰减？
请添加图片描述
由上图可以看出，相较于不使用正则化的权重更新，加了正则化以后，每次权重更新之前，先让原来的 w 进行一次衰减。
这里的衰减率 a 是一个人为设置的超参数。

2.3 为什么权重衰减可以限制模型复杂度？
1）神经网络模型本质是在拟合一条曲线（函数）来完成不同类别的分类
曲线弯弯绕绕，过拟合
曲线太平，欠拟合
2）所以要想找到合适的曲线（函数），可以按照泰勒展开来理解，减少弯弯绕绕的过程就是降低高次项对于最终结果的影响。
3）权重衰减其实就是不断限制 w 的取值范围。通过对于 w 的限制来约束高次项的影响。（这里不做严格证明）

参考资料

【1】https://www.bilibili.com/video/BV1gf4y1c7Gg/?spm_id_from=333.337.search-card.all.click&vd_source=b4732b5f7a12a21575a1d3423f81fe9c
【2】https://blog.csdn.net/Accelerating/article/details/108218719#%E6%AC%A7%E6%B0%8F%E8%B7%9D%E7%A6%BB
【3】相似性度量：https://zhuanlan.zhihu.com/p/660426812

简简单单的貔貅

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
知识积累（二）：损失函数正则化与权重衰减

正则化是机器学习中通过显式的控制模型复杂度来避免模型过拟合、确保泛化能力的一种有效方式。2.1 正则化如何影响模型复杂度1）loss（w，b）是 w 和 b 的函数。（这里的 w 和 b 简单理解就是 y = wx+b）2）机器学习本质：损失函数找到最优解（损失函数最小点）。找最优解的过程就是参数 w 的不断梯度下降的过程。即 w = w - lr *（loss对于w的梯度）其中，lr是学习率。3）整个网络模型本身是 w 和 b 的函数，b是偏置项，不在正则化考虑范围内。
复制链接

扫一扫

专栏目录