L1，L2正则化与最大后验估计(MAP)的关系

weiweiweimengting

于 2022-05-23 22:59:14 发布

阅读量899

点赞数

文章标签：概率论机器学习算法

本文链接：https://blog.csdn.net/weixin_47062807/article/details/124926335

版权

前言

机器学习中的正则化常常用来约束权重的范围，防止模型过拟合，有的文章通过损失函数的求导来证明经过正则化之后的损失函数可以保证参数 $w$ 不容易有无限解，从而防止模型过拟合，本文主要是推导最大后验估计是如何很自然地考虑正则化的，并简单介绍极大似然估计与最大后验估计在机器学习中的角色。

模型

L2正则化：

$y=f(x)=w^Tx+\epsilon \quad \epsilon \sim N(0,\sigma^2)$ ， $\epsilon$ 表示数据的固有噪声
参数 $w$ 的先验分布为高斯分布： $\sim N(0,\sigma_0^2)$
目标函数：计算最大后验概率 $p (w ∣ X, Y)$ 所对应的 $w$
计算时需要注意的一个地方：单个样本的 $p(y_i|w_i,x_i)$ 如何计算？根据 $y=f(x)=w^Tx+\epsilon \quad \epsilon \sim N(0,\sigma^2)$ ，当 $w_i,x_i$ 已知时， $y_i$ 服从的高斯分布相当于 $\epsilon$ 服从的分布平移 $w_i^Tx_i$ ，且此时以 $y_i$ 为变量，即 $y_i \sim N(w_i^Tx_i, \sigma^2)$ 。
推导：
$\mathop{argmax}\limits_w p(w|X,Y)=\mathop{argmax}\limits_w \frac{p(Y|w,X)p(w)}{p(X,Y)} \\ =\mathop{argmax}\limits_w p(Y|w,X)p(w) \\=\mathop{argmax}\limits_w \prod_{i=1}^N p(y_i|w_i,x_i)p(w_i) \\ =\mathop{argmax}\limits_w \prod_{i=1}^N \log p(y_i|w_i,x_i)p(w_i) \\ =\mathop{argmax}\limits_w \prod_{i=1}^N \log \left( \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w_i^Tx_i)^2}{2\sigma^2}}\frac{1}{\sqrt{2\pi}\sigma_0}e^{-\frac{(w_i)^2}{2\sigma_0^2}}\right) \\ =\mathop{argmax}\limits_w \prod_{i=1}^N -\frac{(y_i-w_i^Tx_i)^2}{2\sigma^2}-\frac{(w_i)^2}{2\sigma_0^2} \\ =\mathop{argmax}\limits_w \left[-\frac{1}{2\sigma^2} \prod_{i=1}^N ||y_i-\hat y||^2_2 - \frac{1}{2\sigma_0^2}||w||^2_2 \right]$
令 $\lambda=- \frac{1}{2\sigma_0^2}$ ，损失函数后面那一项 $\frac{1}{2\sigma_0^2}||w||^2_2$ 即为正则化项。

L1正则化
与L2正则化的不同之处在于参数 $w$ 的先验分布不是高斯分布，而是拉普拉斯分布： $p(w)=\frac{1}{2b}e^{(-\frac{|w-\mu|}{b})} \quad where \quad \mu =0$ ，将上面推导的先验概率进行更换：
推导：
$\mathop{argmax}\limits_w p(w|X,Y)=\mathop{argmax}\limits_w \frac{p(Y|w,X)p(w)}{p(X,Y)} \\ =\mathop{argmax}\limits_w p(Y|w,X)p(w) \\=\mathop{argmax}\limits_w \prod_{i=1}^N p(y_i|w_i,x_i)p(w_i) \\ =\mathop{argmax}\limits_w \prod_{i=1}^N \log p(y_i|w_i,x_i)p(w_i) \\ =\mathop{argmax}\limits_w \prod_{i=1}^N \log \left( \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y_i-w_i^Tx_i)^2}{2\sigma^2}}\frac{1}{2b}e^{(-\frac{|w|}{b})}\right) \\=\mathop{argmax}\limits_w \prod_{i=1}^N \left(-\frac{(y_i-w_i^Tx_i)^2}{2\sigma^2}-\frac{|w|}{b}\right) \\ =\mathop{argmax}\limits_w \left[-\frac{1}{2\sigma^2} \prod_{i=1}^N ||y_i-\hat y||^2_2-\frac{1}{b}|w|\right]$
令 $\lambda=- \frac{1}{b}$ ，损失函数后面那一项 $-\frac{1}{b}|w|$ 即为正则化项。

极大似然估计与最大后验估计在机器学习中的使用

极大似然估计不考虑参数的先验分布，只通过数据来学习模型，最大后验估计需要考虑参数的先验，当数据量不够时，我们认为需要借助先验的知识帮我们预测，当数据量越来越多时，最大后验估计的最大值对应的 $w$ 值会越来越趋近极大似然估计的 $w$ 值。对于机器学习来讲，这两种没啥影响，因为参数的先验我们即使设置了也是不合理的。贝叶斯估计求参数分布可能有一个好处就是获得了模型不确定性的表示吧。