【机器学习】L1与L2正则化原理及其适用场景

最新推荐文章于 2025-03-23 18:15:53 发布

Lies.

最新推荐文章于 2025-03-23 18:15:53 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_46564151/article/details/129352466

版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

正则化通过控制模型复杂度防止过拟合，L1正则化能实现特征选择，让模型更稀疏，而L2正则化使系数趋向于小但不为0，简化模型。梯度下降在L1中可能导致特征系数为0，L2则进行系数缩放。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么引入正则化regularization？这牵扯到一个关键问题：过拟合

在这里插入图片描述

当只有一次项的时候，拟合程度不够，当存在五次方项的时候就存在过拟合现象，假设函数很好的fit给定的数据，但是不利于数据的预测（泛化性不够）

如何解决过拟合？

减少特征值的数量
正则化：不改变特征值的数量，减小该特征前的系数 $\theta_j$ 以削弱该特征对预测结果的影响，当我们有大量影响较小的特征的时候，正则化就很有用，换句话说，我们可以认为加入L2正则项后，估计参数长度变短了，这在数学上被称为特征缩减（shrinkage）。

给损失函数加上的正则化项可以有多种形式，正则化的一般形式：

$\frac{1}{2}\sum_{i=1}^N[y_i-w^T\phi(x_i)]^2+\frac{\lambda}{2}\sum_{j=1}\frac{1}{M}|w_j|^q$

其中 $M$ 是参数个数，也是模型维数； $q$ 是正则项的阶数，L2的q=2

在这里插入图片描述

最小化目标函数时，可以看做在控制损失函数不变的情况时令正则项最小化，几何意义如下所示：蓝色圈表示没有限制的损失函数随着 $w$ 迭代寻找着最小化的过程的 $E (w)$ 函数等高线（同个圆上的损失函数值相同），蓝色圈和橙色圈之和就是目标函数值，目标函数最小化的点往往出现在蓝圈和橙圈相交的点即目标函数最小化的参数值 $w^*$ 。