机器学习算法笔记：贝叶斯线性回归_贝叶斯回归算法-CSDN博客

本文链接：https://blog.csdn.net/weixin_43711554/article/details/105662986

文章目录

贝叶斯线性回归

线性回归当噪声为高斯分布的时候，最小二乘损失导出的结果相当于对概率模型应用 MLE，引入参数先验分布是高斯分布，那么 MAP的结果相当于岭回归的正则化，如果先验是拉普拉斯分布，那么相当于 Lasso 的正则化。

利用贝叶斯方法来求解参数的后验分布，线性回归的模型假设为：
$\begin{aligned} f(x)=w^Tx \\ y=f(x)+\varepsilon\\ \varepsilon\sim\mathcal{N}(0,\sigma^2) \end{aligned}$

在贝叶斯方法中，需要解决推断和预测两个问题。

推断

引入高斯先验：
$p(w)=\mathcal{N}(0,\Sigma_p)$

对参数的后验分布进行推断：
$p(w|X,Y)=\frac{p(w,Y|X)}{p(Y|X)}=\frac{p(Y|w,X)p(w|X)}{\int p(Y|w,X)p(w|X)dw}$

由于 $X$ 对 $w$ （先验）无影响 $\to$ $p (w ∣ X) = p (w)$ ，代入先验得到： $p(w|X,Y)\propto \prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)\cdot\mathcal{N}(0,\Sigma_p)$

由于高斯分布的自共轭性质，可以得到后验分布也是一个高斯分布，上式右边第一项：
$\begin{aligned}\prod\limits_{i=1}^N\mathcal{N}(y_i|w^Tx_i,\sigma^2)&=\frac{1}{(2\pi)^{N/2}\sigma^N}\exp(-\frac{1}{2\sigma^2}\sum\limits_{i=1}^N(y_i-w^Tx_i)^2)\\ &=\frac{1}{(2\pi)^{N/2}\sigma^N}\exp(-\frac{1}{2}(Y-\underbrace{Xw}_{\color{blue}\mu})^T(\underbrace{\sigma^{-2}\mathbb{I}}_{\color{blue}\Sigma^{-1}})(Y-Xw)) \\ &=\mathcal{N}(Xw,\sigma^2\mathbb{I}) \end{aligned}$

所以：
$\begin{aligned} p(w|X,Y)&\propto\mathcal{N}(Xw,\sigma^2\mathbb{I})\cdot\mathcal{N}(0,\Sigma_p)\\ &\propto\underbrace{\exp(-\frac{1}{2\sigma^2}(Y-Xw)^T\sigma^{-2}\mathbb{I}(Y-Xw)-\frac{1}{2}w^T\Sigma_p^{-1}w) }_{\color{blue}\text{只关心指数部分}}\\ &\color{blue}\qquad\qquad\qquad\qquad\qquad\qquad\Downarrow_{\text{转换成标准形式}}\\ &\exp(-\frac12(\underbrace{X^T\Sigma_w^{-1}X}_{\color{blue}\text{二次项}}-\underbrace{2\mu_w^T\Sigma^{-1}X}_{\color{blue}\text{一次项}}+const)) \end{aligned}$

将上式转换成标准形式就可以得到对应的 $\color{blue}\mu_w$ 和 $\color{blue}\Sigma_w$ ，其对应关系如下：
$\begin{aligned} &\exp(-\frac12(X-\mu)^T\Sigma^{-1}(X-\mu))\color{blue}\qquad_\text{标准形}\\ &=\exp(-\frac12(X^T\Sigma^{-1}X-2\mu^T\Sigma^{-1}X+const)) \end{aligned}$

采用配方的方式来得到最终的分布： $\color{blue}\mathcal{N}(\mu_w,\Sigma_w)$ ，提取二次项：
$-\frac{1}{2\sigma^2}w^TX^TXw-\frac{1}{2}w^T\Sigma_p^{-1}w\\ \Rightarrow{\color{blue}\Sigma_w^{-1}}=\sigma^{-2}X^TX+\Sigma_p^{-1}=A$

一次项： $\frac{1}{2\sigma^2}2Y^TXw=\sigma^{-2}Y^TXw$ 于是： $\mu_w^T\Sigma_w^{-1}=\sigma^{-2}Y^TX\\ \Rightarrow{\color{blue}\mu_w}=\sigma^{-2}A^{-1}X^TY$

预测

给定一个 $x^*$ ，求解 $y^*$ ，所以 $f(x^*)=x^{*T}w$ ，代入参数后验，有 $x^{*T}w\sim \mathcal{N}(x^{T}\mu_w,x^{*T}\Sigma_wx^*)$ ，添上噪声项：
$\begin{aligned} p(y^*|X,Y,x^*)&=\int_wp(y^*|w,X,Y,x^*)p(w|X,Y,x^*)dw\\ &=\int_wp(y^*|w,x^*)p(w|X,Y)dw\ \\ &=\mathcal{N}(x^{*T}\mu_w,x^{*T}\Sigma_wx^*+\sigma^2) \end{aligned}$