白板推导系列（第二节）

最新推荐文章于 2024-07-08 19:35:47 发布

回想sy

最新推荐文章于 2024-07-08 19:35:47 发布

阅读量105

点赞数 2

分类专栏：机器学习文章标签：概率论线性代数机器学习深度学习协方差

本文链接：https://blog.csdn.net/weixin_49708196/article/details/118151226

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

白板推导系列（第二节）

内容来源于b站up主shuhuai008

高斯分布介绍

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），最早由棣莫弗（Abraham de Moivre）在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。
一元高斯分布的概率密度函数为： $f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}$ ，高维高斯分布概率密度函数为：
$g(\boldsymbol{X})=\frac{1}{(2 \pi)^{\frac{d}{2}}\|\Sigma\|^{\frac{1}{2}}} e^{-\frac{1}{2}(x-u)^{T} \Sigma^{-1}(x-u)}$ ，文章里有详细讲解。

高斯分布的极大似然估计

先观察一维的高斯分布情况，高维情况可以直接推广。假设样本 $X=(x_1, x_2, x_3, \dots,x_n)$ 是独立同分布与高斯分布 $N(\mu, \sigma^{2})$ , 对其做一个最大似然估计有：
$logP(X|\theta)=log\prod_{i=1}^{n}P(x_{i}|\theta)=\sum_{i=1}^{n}logP(x_{i}|\theta)=\sum_{i}[-\frac{(x_i-\mu)^{2}}{2\sigma^{2}}-log\sqrt{2\pi}\sigma]=-L(\mu,\sigma)$
从而利用极大似然估计可得：
$\mu_{MLE}=\underset{\mu}{argmax}L(\mu,\sigma)=\underset{\mu}{argmax}\sum_{i}-\frac{(x_i-\mu)^{2}}{2\sigma^{2}}=\underset{\mu}{argmin}\sum_{i}\frac{(x_i-\mu)^{2}}{2\sigma^{2}}$
求其极值，对 $\mu求导$ 有
$\frac{\partial}{\partial \mu}\left(\sum_{i} \frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)=-\sum_{i} \frac{\left(x_{i}^{2}-\mu\right)}{\sigma^{2}}=0$
$\mu_{MLE}=\frac{1}{n}\sum_{i}x_i$
下面用同样方法求 $\sigma$ 的极大似然估计:
$\begin{aligned} \sigma_{MLE} &=\underset{\sigma}{argmax}L(\mu, \sigma)=\underset{\sigma}{argmax} \sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma+\log \sqrt{2 \pi}\right] \\ &=\underset{\sigma}{argmin} \sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma\right] \end{aligned}$
同样求导有：
$\frac{\partial}{\partial \sigma}\sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma\right]=-\frac{1}{\sigma^{3}} \sum_{i}\left(x_{i}-\mu\right)^{2}+\frac{n}{\sigma}=0$
所以，
$\sigma_{MLE}^2=\frac{1}{n} \sum_{i}\left(x_{i}-\mu_{MLE}\right)^{2}$
注意，极大似然估计出的 $\mu$ 是无偏估计，而 $\sigma$ 是有偏估计。

无偏估计

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值，则称此估计量为被估计参数的无偏估计，即具有无偏性，是一种用于评价估计量优良性的准则。无偏估计的意义是：在多次重复下，它们的平均数接近所估计的参数真值。

有偏估计

有偏估计（biased estimate）是指由样本值求得的估计值与待估参数的真值之间有系统误差，其期望值不是待估参数的真值。在统计学中，估计量的偏差（或偏差函数）是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。

所以，我们验证参数是有偏还是无偏的也就要要验证参数的期望是否等于样本的真实参数。
$E(\mu_{MLE})=E(\frac{1}{n}\sum_ix_i)=\frac{1}{n}\sum_iE(x_i)=\mu$
所以 $\mu$ 是无偏估计。
对于参数 $\sigma$ 有：
$\begin{aligned}\sigma_{MLE}^{2}&=\frac{1}{n} \sum_{i}(x_{i}-\mu)^{2} \\ &=\frac{1}{n} \sum_{i}^{T}\left(x_{i}^{2}-2 x_{i} \mu_{MLE}+\mu^{2}_{MLE}\right) \\ &=\frac{i}{n} \sum_{i} x_{i}^{2}-\frac{2}{n} \sum_{i} x_{i} \mu_{MLE}+n \mu^{2}_{} \\ &=\frac{1}{n} \sum_{i} x_{i}^{2}-2 \mu_{MLE}^{2}+\mu_{MLE}^{2} \\ &=\frac{1}{n} \sum_{i} x_{i}^{2}-\mu_{MLE}^{2} \end{aligned}$
$\begin{aligned}E[\sigma_{MLE}^{2}]&=E[\frac{1}{n}\sum_ix_i^2-\mu_{MLE}^2]\\ &=E[\frac{1}{n}\sum_ix_i^2-\mu^2+\mu^2-\mu_{MLE}^2]\\ &=E[[\frac{1}{n}\sum_ix_i^2-\mu^2]-E[\mu_{MLE}^2-\mu^2]\\ &=\frac{1}{n}\sum_i[E[x_i]-\mu^2]-[E[\mu_{MLE}^2]-E[\mu^2]]\\ &=\frac{1}{n}\sum_i\sigma^2-\frac{1}{n}\sigma^2\\ &=\frac{n-1}{n}\sigma^2 \end{aligned}$
所以 $\sigma_{MLE}$ 是有偏估计， $\frac{n}{n-1}\sigma^2_{MLE}$ 才是高斯分布的无偏估计。

从概率角度观察高斯分布

从概率的角度来观察高斯分布，需要从高维情况来观察，高维的高斯概率密度公式是 $g(\boldsymbol{X})=\frac{1}{(2 \pi)^{\frac{d}{2}}\|\Sigma\|^{\frac{1}{2}}} e^{-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)}$ ，其中我们对各个参数表示一下有助于直观理解， $x$ 是一个 $p$ 维向量 $x=(x_1, x_2, \cdots, x_p)^\intercal, u$ 是各个维度上的样本均值， $\mu=(\mu_1, \mu_2, \cdots, \mu_p)^\intercal$ ， $\Sigma$ 是各个分量的协方差矩阵， $\Sigma=\begin{bmatrix} \sigma_{11}& \sigma_{12}& \cdots& \sigma_{1p}& \\ \sigma_{21}& \sigma_{22}& \cdots& \sigma_{2p}& \\ \vdots & \vdots & \ddots & \vdots & \\ \sigma_{p1}& \sigma_{p2}& \cdots & \sigma_{pp}& \end{bmatrix}$ 。
显然 $\Sigma$ 是一个对称矩阵，可知 $\Sigma$ 作变换， $\Sigma=U\Lambda U^\intercal$ ,其中 $U$ 是正交矩阵，写作 $(u_1, u_2, \cdots, u_p)$ , $\Lambda=diag(\lambda_1, \lambda_2, \cdots, \lambda_p)$
则 $\Sigma=\sum_{i=1}^{p}u_i\lambda_iu_i^\intercal$ ,所以 $\Sigma^{-1}=\sum_{i=1}^{p}u_i\frac{1}{\lambda_i}u_i^\intercal$ 。
$\begin{aligned} \Delta = (x-\mu)^\intercal\Sigma^{-1}(x-\mu) =(x-\mu)^{\top} \sum_{i=1}^{p} u_{i} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu)\\ =\sum_{i=1}(x-\mu)^{\top} u_{i} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu) \end{aligned}$
令 $y_i=(x-\mu)u_i^{\top}$ ,可以看出 $y_i$ 就是 $(x-\mu)$ 在 $u_i$ 上的投影， $u_i$ 是协方差矩阵的关于特征值 $\lambda_i$ 的特征向量。上式继续化简有：
$\begin{aligned} &=\sum_{i=1}^{p}y_i\frac{1}{\lambda_i}y_i^{\top}\\ &=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i}\end{aligned}$
对上式分析，先假设 $p = 2$ ,对一个固定了的高斯分布有 $\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=\delta$ 可以看出是一个椭圆形，根据该公式，可以绘制出其概率密度函数的等高线,意义就是其概率密度等高线是椭圆形式的，若 $\lambda_1=\lambda_2$ ,此时是圆，高维情形下也可以类推下去知是高维情况下的椭圆形密度函数，其收敛于中心一点。

高斯分布的局限性

一、高斯分布的参数较多 $p^2)$ ，而且不是相互独立的，就导致协方差矩阵 $\Sigma$ 较难计算。
二、现实的模型都比较复杂，大部分都很难用一个高斯模型所表示，这时我们引入了高斯混合模型(Gussian Mixure Model，GMM)

高斯模型的概率分布

条件概率和边缘概率

先介绍一个事实，若 $\sim N(\mu, \sum^2), x \in R^p$ , $y = A x + B$ 则 $\sim N(A\mu + B, A \sum A^\top)$ 。
问题： $x=\begin{bmatrix}x_a \\ x_b \end{bmatrix}, x_a \in R^m, x_b \in R^n, m+n=p. \ \mu=\begin{bmatrix}\mu_a \\ \mu_b \end{bmatrix}, \sum=\begin{bmatrix} \sum_{aa} & \sum_{ab} \\ \sum_{ba} & \sum_{bb} \end{bmatrix}$ , 求 $P(x_a),P(x_b|x_a).$
解： $x_a = \begin{bmatrix} I_m & 0 \end{bmatrix} \begin{bmatrix} x_a \\ x_b \end{bmatrix}$ ,利用上面的结论可以得出： $E(x_a)=\begin{bmatrix} I_m & 0 \end{bmatrix} \begin{bmatrix} \mu_a \\ \mu_b \end{bmatrix}=\mu_a$ , $Var(x_a)=\begin{bmatrix} I_m & 0 \end{bmatrix} \sum \begin{bmatrix} I_m \\ 0 \end{bmatrix}=\sum_{aa}$ 。
所以我们就得到了 $x_a \sim N(\mu_a, \sum_{aa})$ 。下面求 $P(x_b|x_a)$ ,
为了求 $P(x_b|x_a)$ ，我们先引入一个变量 $x_u = x_b - \sum_{ba}\sum_{aa}^{-1}x_a$ , $\mu_u=\mu_b - \sum_{ba}\sum_{aa}^{-1}\mu_a, \sum_{u}=\sum_{bb}-\sum_{ba}\sum_{aa}^{-1}\sum_{ab}$ ,利用上面结论很容易验证 $x_u \sim N(\mu_u,\sum_{u})$ 。所以我们有：
$x_b = x_u +\sum_{ba}\sum_{aa}^{-1}x_a$ 。所以 $E[x_b|x_a]=\mu_u +\sum_{ba}\sum_{aa}^{-1}x_a, Var(x_b|x_a)=Var(x_u)=\sum_u$ ,故 $x_b|x_a \sim N(\mu_u +\sum_{ba}\sum_{aa}^{-1}x_a, \sum_u)$ 。
至此我们已经求出了边缘概率和条件概率。下面继续求联合概率，
对于联合概率我们问题需要变化一下

已知， $p(x)=N(x|\mu, \Lambda^{-1}), p(y|x)=N(y|Ax+b, L^{-1})$ ,求 $p (y), p (x ∣ y)$ .
上面 $y$ 是与 $x$ 的分布相关，但有噪声，所以我们将其转化一下：
$y=Ax+b+\varepsilon, \varepsilon \sim N(0,L^{-1})$ ,
所以 $E[y]=E[Ax+b+\varepsilon]=E[Ax+b]+E[\varepsilon]=A\mu+b$ , $Var[y]=Var[Ax+b+\varepsilon]=Var[Ax+b]+Var[\varepsilon]=A\Lambda^{-1}A^\top+L^{-1}$ ,
所以， $y\sim N(A\mu+b,A\Lambda^{-1}A^\top+L^{-1})$ 。
为了求第二个条件概率我们先求其联合概率，令 $z=\begin{bmatrix}x\\y\end{bmatrix}$
$E[z]=\begin{bmatrix}\mu\\A\mu+b\end{bmatrix}$ $Var(z)=\begin{bmatrix} \Lambda^{-1} & \Delta\\ \Delta & A\Lambda^{-1}A^\top+L^{-1}\end{bmatrix}$
其中 $\Delta$ 是 $x$ 和 $y$ 的协方差 $y)=\Lambda^{-1}A^\top$ (这里偷个懒不写啦，下图有推导过程)。所以我们求出了联合概率 $\sim N(E[z],Var(z))$ ，就可根据上面的条件概率公式求出 $(p (x ∣ y))$ 了。
至此，我们求出了高斯分布下的两个变量的所有条件概率和边缘概率情况，还给出了联合概率的求法，前提是两个变量要有一定的线性关系。

（水平有限，如有错误,麻烦批评指正）

图来源于b站up主shuhuai008的板书，写的真的好棒

在这里插入图片描述

回想sy

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
白板推导系列（第二节）

白板推导系列（第二节）内容来源于b站up主shuhuai008高斯分布介绍正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），最早由棣莫弗（Abraham de Moivre）在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。一元高斯分布的概率密度函数为：f(x)=12
复制链接

扫一扫