线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

最新推荐文章于 2025-02-08 11:46:02 发布

TransientYear

最新推荐文章于 2025-02-08 11:46:02 发布

阅读量6.7k

点赞数 11

分类专栏：机器学习公式推导理解文章标签：线性回归岭回归概率解释极大似然估计最大后验估计

本文链接：https://blog.csdn.net/z_feng12489/article/details/101388745

版权

机器学习公式推导理解同时被 2 个专栏收录

25 篇文章

订阅专栏

回归

7 篇文章

订阅专栏

回归问题的概率解释

线性回归的损失函数
线性回归-最小二乘的概率解释（频率学派-最大似然估计）
岭回归的损失函数
岭回归的概率解释（贝叶斯学派-最大后验估计）
结论
最大后验估计与最大似然估计

线性回归的损失函数

$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$

线性回归-最小二乘的概率解释（频率学派-最大似然估计）

当我们面对回归问题时，为什么会采用线性回归，最小二乘法来定义成本函数，即1/2的差的平方和。

这里给出概率解释：

我们拟合的直线的函数值即预测值必然和真实值会存在误差。那么假定一个等式：
$y^{(i)} = \theta^Tx^{(i)}+\epsilon$

其中各个样本的误差项，是独立同分布且服从高斯分布（正态分布）。（可根据中心极限定理来看）

即就是：
$\epsilon^{(i)} \sim N(0,\sigma^2)$
$P(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)} -\theta^Tx^{(i)})^2}{2\sigma^2})$

均值为0，容易理解.

所以，

$P(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)} -\theta^Tx^{(i)})^2}{2\sigma^2})$

也就是要面对在 $\theta$ 为参数给定一个x时预测值y是真实值的概率服从正太分布，要求得概率最大时的？

使用最大似然估计：
$\begin{aligned} L(\theta) &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{aligned}$
$\begin{aligned} l(\theta) &=\ln (L(\theta)) \\ &=\ln \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \ln \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=m l n \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \end{aligned}$
根据此过程，要求此函数的最大值，需求上式中后项函数 $J(\theta)$ 的最小值，
$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2$

此函数又即为最小二乘估计的目标函数。

岭回归的损失函数

$J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda||\theta||_2^2$

岭回归的概率解释（贝叶斯学派-最大后验估计）

以贝叶斯学派得角度来看：

我们引入高斯噪声 $\epsilon$ 来看可以知道：
$y^{(i)}|\theta \sim N(0, \sigma_0^2)$

也就是：
$P(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{} -\theta^Tx^{})^2}{2\sigma^2})$

我们假定参数 $\theta$ 也服从一个高斯分布：
$P(\theta) = \frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{||\theta||^2_2}{2\sigma_0^2})$

以及贝叶斯定理：
$P(\theta|y) = \frac{P(y|\theta)P(\theta)}{P(y)}$

根据最大后验估计：

$\begin{aligned} \hat{\theta} &=\arg \max _{\theta} P(\theta | y)=\arg \max P(y | \theta) \cdot P(\theta) \\ &=\arg \max _{\theta} \log [P(y | \theta) \cdot P(\theta)] \\ &=\arg \max _{\theta} \log \left(\frac{1}{\sqrt{2 \pi} \sigma} \cdot \frac{1}{\sqrt{2 \pi} \sigma_{0}}\right)+\log \exp \left\{-\frac{\left(y-\theta^{2} x\right)^{2}}{2 \sigma^{2}}-\frac{\|\theta\|^{2}}{2 \sigma_{0}^{2}}\right\} \\ &=\arg \min _{\theta} \frac{\left(y-\theta^{2} x\right)^{2}}{2 \sigma^{2}}+\frac{\|\theta\|^{2}}{2 \sigma_{0}^{2}} \\ &=\arg \min _{\theta}\left(y-\theta^{2} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}}\|\theta\|^{2} \end{aligned}$