L1正则化与L2正则化

最新推荐文章于 2024-05-18 20:08:10 发布

Onwarder

最新推荐文章于 2024-05-18 20:08:10 发布

阅读量693

点赞数

分类专栏：深度学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_44735246/article/details/107803382

版权

深度学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

【注】部分图片来源于吴恩达老师课程。

一、正则化使用场景

如果你的网络过度拟合了数据，即存在高方差问题，那么首先应该想到正则化。

二、正则化分类

分为L1正则化和L2正则化两种。首先，我们假定网络中原本的损失函数为：

在这里插入图片描述

其中，w为网络的权重值，b为偏置值。
添加L1正则化后损失函数的形式可以表示为：
在这里插入图片描述

即在最后添加了权重绝对值的和。其中，λ是正则化参数。
添加L2正则化后损失函数的形式可以表示为：

即在最后添加了权重的平方和。
【注】在避免过拟合这一情况下，L2正则化的使用越来越多。

三、原理分析

过拟合往往是因为网络学习到的曲线过于复杂.
从式子上直观理解，正则化参数λ越大，权重矩阵W就会变得越小，接近为0，相当于把多个隐藏单元的权重设置为接近0甚至为0，而由于权重值的变小，也就使得这些隐藏单元带来的影响更小。极端地去理解，多个隐藏单元的权重被设置为0，那么下图中原本较为复杂的网络本质上等价于一个简单的小网络，这也就使得网络从过拟合的状态变成了左侧'high bias'的状态。但是会存在一个合适的λ，使得我们发现'just right'这一状态。

在这里插入图片描述

从数学角度理解，过拟合是因为最终得到的函数为了顾及每一个点而导致函数的形状复杂、波动很大，如下图所示。在一个小区间里面，函数值变化的幅度大的原因只能是函数中自变量前的系数过大，因为小区间范围内，自变量的变化幅度很小啊。而L2正则化相当于对这些系数加上了约束条件，使得系数不会太大，进而减少过拟合的情况。

在这里插入图片描述|center

四、L2正则化/权重衰减

下图给出了L2正则化的一些笔记，其中，红色的部分也就解释了L2正则化为什么也被称为“权重衰减”。对比绿线部分和红线部分，发现不同点在于W前的系数不同，而αλ/m是一个正值，因此加入正则化后的参数w前的系数变得更小，等效于将w进行了“衰减”。

在这里插入图片描述

Onwarder

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
L1正则化与L2正则化

【注】部分图片来源于吴恩达老师课程。一、正则化使用场景如果你的网络过度拟合了数据，即存在高方差问题，那么首先应该想到正则化。二、正则化分类分为L1正则化和L2正则化两种。首先，我们假定网络中原本的损失函数为：其中，w为网络的权重值，b为偏置值。添加L1正则化后损失函数的形式可以表示为：即在最后添加了权重绝对值的和。其中，λ是正则化参数。添加L2正则化后损失函数的形式可以表示为：即在最后添加了权重的平方和。【注】在避免过拟合这一情况下，L2
复制链接

扫一扫

专栏目录