深入理解L1、L2正则化

Adenialzz

已于 2022-07-22 23:34:02 修改

阅读量528

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

于 2022-07-22 23:32:11 首次发布

原文链接：https://zhuanlan.zhihu.com/p/376282535

版权

机器学习专栏收录该内容

27 篇文章 3 订阅

订阅专栏

深入理解L1、L2正则化

转自：【面试看这篇就够了】L1、L2正则化理解

一、概述

正则化（Regularization）是机器学习中一种常用的技术，其主要目的是控制模型复杂度，减小过拟合。正则化技术已经成为模型训练中的常用技术，在面试中，经常会遇到面试官问此题。由于正则化已经成为一种标准的技术，日常使用中往往都是直接用，而没有特别了解背后的原理。而如果面试中回答得不够好，或者没回答清楚，就会非常影响面试结果。因此非常有必要将此题弄清楚。本文便是秉承着这样的一种目的，给大家详尽而又彻底地讲解这个问题。遇到面试的时候，看这篇文章就够用了。

最基本的正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。其数学表达形式为
$\widetilde{J}(\omega;X,y)={J}(\omega;X,y)+\alpha\Omega(\omega)$
式中 $X$ ， $y$ 为训练样本和对应标签， $\omega$ 为权重系数的向量， $J(\cdot)$ 为目标函数， $\Omega(\omega)$ 即为惩罚项，可理解为模型“规模”的某种度量，参数 $\alpha$ 用于控制正则化的强弱。不同的 $\Omega(\cdot)$ 函数对权重 $\omega$ 的最优解有不同的偏好，因而会产生不同的正则化效果。最常用的 $\Omega$ 函数有两种，即 $L_1$ 范数和 $L_2$ 范数，相应称之为 $L_1$ / $L_2$ 正则化。

$L_1$ 正则化是指权重向量 $\omega$ 中各个元素绝对值之和：
$\Omega(\omega)=||\omega||_1=\sum_i|\omega_i|$
$L_2$ 正则化是指权重向量 $\omega$ 中各个元素的平方和：
$\Omega(w)=||\omega||_2=\sum_i\omega^2_i$

二、对 $L_1$ 、 $L_2$ 的理解方式

本小节将从不同的方式对 $L_1$ 和 $L_2$ 进行讲解，方便读者对 $L_1$ 、 $L_2$ 的作用有一个更深的理解。同时在面试的时候，也可以更加从容地回答面试官的问题。本人通过阅读、总结网络上的各种文章，提供5种理解方式：

正则化理解之最大后验概率估计
正则化理解之梯度
正则化理解之等高线图
正则化理解之数学公式解析
正则化理解之结构风险最小化

1 正则化理解之最大后验概率估计

在最大似然估计中，假设权重 $\omega$ 是位置的参数，有对数似然函数：
$L(\omega)=ln[P(y|X;\omega)]=ln\prod_iP(y^{i}|x^i;\omega)$
通过假设 $y^i$ 不同的概率分布，可得到不同的模型。例如假设 $y^i\sim N(\omega^Tx^i,\sigma^2)$ 的高斯分布，则有：
$L(\omega)=ln\prod \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^i-\omega^Tx^i)^2}{2\sigma^2}}=-\frac{1}{2\sigma^2}\sum_i(y^i-\omega^Tx^i)^2+C$
式中 $C$ 为常数项，由于常数项和系数项不影响 $maxL(\omega)$ 的解，因而可令 $J(\omega;X,y)=-L(\omega)$ 即可得到线性回归的代价函数。

在最大后验概率估计中，则将权重 $\omega$ 看做随机变量，也具有某种分布，从而有：
$P(\omega|X,y)=\frac{P(\omega,X,y)}{P(X,y)}=\frac{P(X,y|\omega)P(\omega)}{P(X,y)}\propto P(y|X,\omega)P(\omega)$
同样取对数有：
$MAP=lnP(y|X,\omega)P(\omega)=lnP(y|X,\omega)+lnP(\omega)$
可以看出后验概率函数未在似然函数的基础上增加了一项 $lnP(\omega)$ 。 $P(\omega)$ 的意义是对权重系数 $\omega$ 的概率分布的先验假设，在收集到训练样本 ${X,y\}$ 之后，则根据 $\omega$ 在 ${X,y\}$ 下的后验概率对 $\omega$ 进行修正，从而对 $\omega$ 做出更好的估计。

若假设 $\omega_j$ 的先验分布为 0 均值的高斯分布，即 $\omega_j\sim N(0,\sigma^2)$ ，则有：
$lnP(\omega)=ln\prod_jP(\omega_j)=ln\prod_j\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\omega_j^2}{2\sigma^2}}=-\frac{1}{2\sigma^2}\sum_j\omega_j^2+C'$
可以看到，在高斯分布下 $lnP(\omega)$ 的效果等价于在代价函数中增加 $L_2$ 正则项。

若假设 $\omega_j$ 服从均值为 0、参数为 $a$ 的拉普拉斯分布，即：
$P(\omega_j)=\frac{1}{\sqrt{2a}}e^{\frac{-|\omega_j|}{a}}$
则有：
$logP(\omega)=log\prod_j\frac{1}{\sqrt{2a}}e^\frac{-|\omega_j|}{a}=-\frac{1}{a}\sum_j|w_j|+C'$
可以看到，在拉普拉斯分布下 $lnP(\omega)$ 的效果等价于在代价函数中增加 $L_1$ 正则项。

故此，我们得到对于 $L_1$ 、 $L_2$ 正则化的第一种理解：

$L_1$ 正则化可通过假设权重 $\omega$ 的先验分布为拉普拉斯分布im，由最大后验概率估计导出；
$L_2$ 正则化可通过假设权重 $\omega$ 的先验分布为高斯分布，由最大后验概率估计导出。

在这里插入图片描述

2 正则化理解之梯度

$L_1$ 是 $\omega$ 绝对值之和。当 $\omega$ 大于 0 时，梯度式中为正常数，更新的参数 $\omega$ 变小；当 $\omega$ 小于 0 时，梯度始终为负常数，更新的参数 $\omega$ 变大；所以， $L_1$ 正则化容易使参数变为 0 ，即特征稀疏化。

$L_2$ 是 $\omega$ 平方和。当 $\omega$ 趋向于 0 时，参数减小得非常缓慢，因此 $L_2$ 正则化是参数减小到很小的范围，但不为 0 。

3 正则化理解值等值线图

易得，略。

4 正则化理解之数学公式解析

假设原目标函数 $J(\omega)$ 的最优解 $\omega^*$ ，并假设其为二阶可导，将 $J(\omega)$ 在 $\omega^*$ 处进行二阶泰勒展开：
$\widetilde{J}(\omega)=J(\omega^*)=\frac{1}{2}(\omega-\omega^*)^TH(\omega-\omega^*)$
式中 $H$ 为 $J(\omega)$ 在 $\omega^*$ 处的 Hessian 矩阵，注意 $\omega^*$ 为 $J(\omega)$ 的最优解，其一阶导数为 0，因而式中无一阶导数项。 $\widetilde{J}(\omega)$ 取得最小值时有：
$\nabla_\omega\widetilde{J}(\omega)=H(\omega-\omega^*)=0$
由于 $L_2$ 正则化的目标函数为在 $J(\omega)$ 中添加 $\Omega(\omega)=\frac{1}{2}\alpha||\omega||^2_2=\frac{1}{2}\alpha\omega^T\omega$ ，因而有：
$\nabla_\omega\widetilde{J}(\omega)=\nabla_{\omega}\hat{J}(\omega)+\nabla_\omega\Omega_\omega=H(\omega-\omega^*)+\alpha\omega$
设其最优解为 $\widetilde{\omega}$ ，则有：
$H(\widetilde{\omega}-\omega^*)+\alpha\widetilde{\omega}=0$

$\widetilde{\omega}=(H+\alpha I)^{-1}H\omega^*$

由于 $H$ 是对称矩阵，可对其做特征值分解，即 $H=Q\Lambda Q^{-1}$ ，其中 $Q$ 为正交矩阵，且每一列为 $H$ 的特征向量，代入上式有：
$\widetilde{\omega}=Q(\Lambda+\alpha I)^{-1}\Lambda Q^T\omega^*$
其中 $\Lambda$ 为对角矩阵，其对角线元素为 $H$ 的特征值 $\lambda_j$ 。

$\omega^*$ 可以 $Q$ 为正交基上做线性展开，由上式可知 $\widetilde{\omega}$ 为 $\omega^*$ 在 $H$ 的每个特征向量上的分量以 $\frac{\lambda_j}{\lambda_j+\alpha}$ 比例缩放得到。若 $\lambda_j\gg\alpha$ ，则 $\omega_j$ 受正则化的影响较小；若 $\lambda\ll\alpha$ ，则 $\omega_j^*$ 受正则化的影响较大，将收缩到接近于 0 的值。同时，若 $\omega^*_j\ne0$ ，则 $\widetilde{\omega}_j\ne0$ ，因而 $L_2$ 正则化不会产生稀疏性的效果。

对于 $L_1$ 正则化，只需将 $\Omega(\omega)$ 替换为 $\omega$ 的 $L_1$ 范数，同理可以得到：
$\nabla_\omega\widetilde{J}(\omega)=\nabla\hat{J}(\omega)+\nabla_\omega\Omega(\omega)=H(\omega-\omega^*)+\alpha sign(\omega)$
其最优解满足：
$H(\widetilde{\omega}-\omega^*)+\alpha sign(\widetilde{\omega})=0$
为了简化讨论，我们假设 $H$ 为对角阵，即 $H=diag[H_{11},H_{22},\dots,H_{nn}]$ ， $H_{jj}>0$ 。此时 $\omega$ 的不同分量之间没有相关性，该假设可通过对输入特征进行预处理（如使用 PCA）得到，此时 $\widetilde{\omega}$ 的解为：
$\widetilde{\omega}=sign(\omega_j^*)max\{|\omega_j^*|-\frac{\alpha}{H_{jj}},0\}$
当 $|\omega^*_j|\le \frac{\alpha}{H_{jj}}$ 时，可知 $\widetilde{\omega}_j=0$ ，因而 $L_1$ 正则化会使得最优解的某些元素为 0，从而产生稀疏性； $|\omega^*_j|\ge \frac{\alpha}{H_{jj}}$ 时， $\widetilde{\omega}_j$ 会在原有最优解上偏移一个常数值。

综上， $L_2$ 正则化的效果是对原最优解的每个元素进行不同比例的放缩； $L_1$ 正则化则会使原最优解的元素产生不同量的偏移，并使得某些元素为 0，从而产生稀疏性。

5 正则化理解之结构风险最小化

在经验风险最小化（也就是训练误差最小化）的基础上，尽可能采用简单的模型（奥卡姆剃刀理论），以此提高泛化预测精度。

$L_1$ 从参数个数的角度去衡量模型的复杂度
$L_2$ 从参数值的大小的角度去衡量模型的复杂度

三、 $L_1$ 、 $L_2$ 的适用场景

由于 $L_1$ 、 $L_2$ 的特点，因此他们有各自不同的适用场景。

$L_1$ ：使模型中尽可能多的参数值为 0，是一种从改变模型结构的角度（减少模型参数的数量）解决过拟合的方式。因此适用于：模型剪枝、模型压缩、特征选择。
$L_2$ ：使模型中所有的参数值尽可能小，是的模型尽量不依赖于某几个特殊的特征，而是使得每个特征得到尽量均衡的权重，即从参数分布（让分布尽可能地均匀）的角度，解决过拟合问题，这也是常用的解决过拟合的方式。因此适用于解决一般的过拟合问题，