机器学习概率基础-高斯分布相关重要知识推导

本文链接：https://blog.csdn.net/z_feng12489/article/details/95856861

本文围绕高斯分布展开，介绍了其最大似然估计，推导了参数均值与方差的有偏无偏估计，指出用最大似然估计法估计高斯分布的方差会偏小。还对二维高斯分布进行可视化探究，分析了高斯分布在参数学习和模型表达上的局限性，最后求解了多维高斯分布的边缘分布和条件概率分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

高斯分布的最大似然估计
参数均值与方差的有偏无偏估计
- 关于均值的无偏估计
- 关于方差的有偏估计
二维高斯分布的可视化探究
高斯分布的局限性
求多维高斯分布的边缘分布和条件概率分布

高斯分布的最大似然估计

数据 $X=\left(x_{1}, \cdots, x_{N}\right)^{\top}=\left(\begin{array}{c}{x_{1}^{\top}} \\ {\vdots} \\ {x_{N}^{\top}}\end{array}\right)_{N \times p},x_{i} \in \mathbb{R}^{P}, \quad x_{i} \stackrel{\text { iid }}{\sim} N(\mu, \Sigma)$

极大似然估计： $\theta_{MLE}=argmax_{\theta}P(x|\theta)$

高斯分布：
$p(x)=\frac{1}{\sqrt{2\pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)$ 一元高斯
$P(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right)$ 多元高斯

一元高斯为例

$\begin{aligned} \log P(x | \theta) &=\log \Pi_{i=1}^{N} P\left(x_{i} | \theta\right)=\Sigma_{i=1}^{N} \log P\left(x_{i} | \theta\right) \\ &=\Sigma_{i=1}^{N} \log \frac{1}{\sqrt{2\pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \\ &=\Sigma_{i=1}^{N}\left[\log \frac{1}{\sqrt{2 \pi}}+\log \frac{1}{\sigma}-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right] \end{aligned}$

估计均值：

$\begin{aligned} \mu_{MLE} &=\arg \max _{\mu} \log P(x | \theta) \\ &=\arg \max _{\mu} \Sigma_{i=1}^{N}-\frac{(x-\mu)^{2}}{2 \sigma^{2}} \\ &=\arg \max \Sigma_{i=1}^{N}\left(x_{i}-\mu\right)^{2} \end{aligned}$
$\frac{\partial}{\partial \mu} \Sigma\left(x_{i}-\mu\right)^{2}=\Sigma_{i=1}^{N} 2\left(x_{i}-\mu\right)(-1)=0$
$\Rightarrow \Sigma_{i=1}^{N}\left(x_{i}-\mu\right)=0 \Rightarrow \Sigma_{i=1}^{N} x_{i}=N \mu \Rightarrow \mu_{M L E}=\frac{1}{N} \Sigma_{i=1}^{N} x_{i}$
$E\left[\mu_{M L E}\right]=\frac{1}{N} \Sigma_{i=1}^{N} E\left[x_{i}\right]=\frac{1}{N} \Sigma_{i=1}^{N} \mu=\mu$ (无偏估计)

估计方差：

$\begin{aligned} \sigma_{M L E}^{2} &=\arg \max \log P(x | \theta) \\ &=\arg \max _{\sigma}\left(-\log \sigma-\frac{1}{2 \sigma^{2}}\left(x_{i}-\mu\right)^{2}\right) \end{aligned}$
令 $L(\sigma)=\left(-\log \sigma-\frac{1}{2 \sigma^{2}}\left(x_{i}-\mu\right)^{2}\right)$
$\frac{\partial L}{\partial \sigma}=\Sigma_{i=1}^{N}\left[-\frac{1}{\sigma}+\frac{1}{2}\left(x_{i}-\mu\right) \cdot 2 \cdot \sigma^{-3}\right]=0$
$\begin{array}{l}{\Rightarrow \Sigma_{\overline{i}=1}^{N}\left[-\frac{1}{\sigma}+\left(x_{i}-\mu\right) \sigma^{-3}\right]=0} \\ {\Rightarrow \Sigma_{i=1}^{N}\left[-\sigma^{2}+\left(x_{i}-\mu\right)\right]=0} \\ {\Rightarrow \Sigma_{i=1}^{N}\left(-\sigma^{2}\right)+\Sigma_{i=1}^{N}\left(x_{i}-\mu\right)^{2}=0} \\ {\Rightarrow N \sigma^{2}=\Sigma_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}\end{array}$
$\sigma_{M L E}^{2}=\frac{1}{N} \Sigma_{i=1}^{N}\left(x_{i}-\mu_{M L E}\right)^{2}$ (有偏估计)

参数均值与方差的有偏无偏估计

$\theta=\left(\mu, \sigma^{2}\right), \quad x_{i} \sim N\left(\mu, \sigma^{2}\right)$
$\mu_{M L E}=\frac{1}{N} \Sigma_{i=1}^{N} x_{i}$ (无偏估计)
$\sigma_{M L E}^{2}=\frac{1}{N} \Sigma_{i=1}^{N}\left(x_{i}-\mu_{MLE}\right)^{2}$ (有偏估计)

关于均值的无偏估计

$E\left[\mu_{M L E}\right]=E\left[\frac{1}{N} \Sigma_{i=1}^{N} x_{i}\right]=\frac{1}{N} \Sigma_{i=1}^{N} E\left(x_{i}\right)=\frac{1}{N} \cdot N \cdot \mu=\mu$

关于方差的有偏估计

$\sigma_{M L E}^{2}=\frac{1}{N} \Sigma_{i=1}^{N}\left(x_{i}-\mu_{M L E}\right)^{2} = \frac{1}{N} \Sigma_{i=1}^{N}\left(x_{i}^{2}-2 \cdot x_{i} \cdot \mu_{M L E}+\mu_{M L E}^{2}\right)$
$~~~~~~~~~~~=\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-\frac{1}{N} \Sigma_{i=1}^{N} 2 \cdot x_{i} \mu_{M L E}+\frac{1}{N} \Sigma_{i=1}^{N} \mu_{MLE}^{2}$
$~~~~~~~~~~~=\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-2 \cdot \mu_{M L E}^{2}+\mu_{M L E}^{2}$
$~~~~~~~~~~~=\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-\mu_{M L E}^{2}$

$E\left[\sigma_{ML E}^{2}\right]=E\left[\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-\mu_{M L E}^{2}\right] = E\left[\left(\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-\mu^{2}\right)-\left(\mu_{M L E}^{2}-\mu^{2}\right)\right]$
$=E\left[\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-\mu^{2}\right]-E\left[\mu_{M LE}^{2}-\mu^{2}\right]$

$E\left(\frac{1}{N} \Sigma_{i=1}^{N} x_{i}^{2}-\mu^{2}\right]=E\left[\frac{1}{N} \Sigma_{i=1}^{N}\left(x_{i}^{2}-\mu^{2}\right)\right]$
$~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{1}{N} \Sigma_{i=1}^{N} E\left(x_{i}^{2}-\mu^{2}\right)$
$~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\sigma^2$

$E\left[\mu_{MLE}^{2}-\mu^{2}\right]=E\left[\mu_{MLE}^{2}\right]-E\left[\mu^{2}\right]$
$\begin{array}{l}{~~~~~~~~~~~~~~~~~~~~~~~~~=E\left[\mu_{M L E}^{2}\right]-\mu^{2}} \\ {~~~~~~~~~~~~~~~~~~~~~~~~~=E\left[\mu_{M L E}^{2}\right]-E^{2}\left[\mu_{MLE}\right]}\end{array}$
$Var(\mu_{MLE})$
$\operatorname{var}\left(\frac{1}{N} \Sigma_{i=1}^{N} x_{i}\right)$
$\begin{array}{l}{~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{1}{N^{2}} \Sigma_{i=1}^{N} \operatorname{Var}\left(x_{i}\right)=\frac{1}{N^{2}} \Sigma_{i=1}^{N} \sigma^{2}} \\ {~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{1}{N^{2}} \cdot N \cdot \sigma^{2}=\frac{1}{N} \sigma^{2}}\end{array}$

最终得到

$E\left[\sigma_{MLE}^{2}\right]=\sigma^{2}-\frac{1}{N} \sigma^{2}=\frac{N-1}{N} \sigma^{2} \neq \sigma^2$ (有偏估计)

容易得出利用最大似然估计法估计高斯分布的方差会偏小！！！
极大似然估计针对于高斯分布的方差估计会造成一定的偏差。

实际上其方差的无偏估计为：

$\hat{\sigma}^{2}=\frac{1}{N-1} \Sigma_{i=1}^{N}\left(x_{i}-\mu_{M L E}^{2}\right)$

二维高斯分布的可视化探究

多维高斯分布： $\sim p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right)$
$\in \mathbb{R}^{p},$ p 维的随机向量。
$x=\left(\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{p}}\end{array}\right),$ $\mu=\left(\begin{array}{c}{\mu_{1}} \\ {\mu_{2}} \\ {\vdots} \\ {\mu_{p}}\end{array}\right)$ , $\Sigma=\left(\begin{array}{ccc}{\sigma_{11}} & {\sigma_{12}} & {\dots}& {\sigma_{1p}} \\ {\sigma_{21}} & {\sigma_{22}} & {\dots}& {\sigma_{2p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots}\\ {\sigma_{P 1}} & {\sigma_{p 2}} & {\cdots}& {\sigma_{pp}}\end{array}\right)$ , 假设 $~\Sigma~$ 为正定的（一般情况下为半正定）

$(x-\mu)^{T} \Sigma^{-1}(x-\mu)$ (二次型)，马氏距离
$\Sigma = 1$ ，马氏距离为欧氏距离。

$\Sigma~$ 的相似对角化（特征分解）

$\Sigma=u \wedge u^{\top}, u u^{\top}=u^{\top} u=I$ (正交)
$\wedge=\operatorname{diag}\left(\lambda_{i}\right), i=1, \cdots, p_{\cdot}, \lambda_{i} \in C$
$U=\left(u_{1}, \cdots, u_{p}\right)_{p \times p}$

$\Sigma=u \wedge u^{\top}=\left(u_{1}, \ldots u_{p}\right)\left(\begin{array}{ccc}{\lambda_{1}} \\ {} & {\ddots} & {} \\ {} & {} & {\lambda_{p}}\end{array}\right)\left(\begin{array}{c}{u_{1}^{\top}} \\ {\vdots} \\ {u_{p}^{\top}}\end{array}\right)$
$~~~~=\left(u_{1} \lambda_{1} \cdots u_{p} \lambda_{p}\right)\left(\begin{array}{l}{u_{1}^{\top}} \\ \vdots \\ {u_{p}^{\top}}\end{array}\right)$ $=\Sigma_{i=1}^{p} u_{i} \lambda_{i} u_{i}^{\top}$

$\Sigma^{-1}=\left(u \wedge u^{\top}\right)^{-1}=\left(u^{T}\right)^{-1} \wedge^{-1} u^{-1}=u \Lambda^{-1} u^{T}=\Sigma_{i=1}^{p} u_{i} \frac{1}{\lambda i} u_{i}^{T}$
$\wedge^{-1}=\operatorname{diag}\left(\frac{1}{\lambda_{i}}\right), i=1, \cdots, p$

$\begin{aligned} \Delta=(x-\mu) \Sigma^{-1} | x-\mu ) &=(x-\mu)^{\top} \Sigma_{i=1}^{p} u_{i} \frac{1}{\lambda i} \cdot u_{i}^{\top}(x-\mu) \\ &=\Sigma_{i=1}^{p}(x-\mu)^{\top} u_{1} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu)\\ &令 ~y=\left(\begin{array}{l}{y_{1}} \\ {\vdots} \\ {y_{p}}\end{array}\right)=(x-\mu)^{\top} u_{i}\\& =\Sigma_{i=1}^{p} y_{i} \frac{1}{\lambda_{i}} y_{i}^{T}=\Sigma_{i=1}^{p} \frac{y_{i}^{2}}{\lambda_{i}} \end{aligned}$

令 p = 2, $\Delta=\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}=1(\lambda_1>\lambda_2)$

在这里插入图片描述

总结：

令 $\Delta=(x-\mu)^{T} \Sigma^{-1}(x-\mu)$
$p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2} \Delta\right)$
令 $\rightarrow \Delta=r_{1}$ , 对应一个 $\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}=r_{1}$ 椭圆。
令 $\rightarrow \Delta=r_{2}$ , 对应一个 $\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{2}}=r_{2}$ 椭圆。

当 $\mu = [0, 0]^T, \Sigma = \left[\begin{array}{cc}{1} & {0.5} \\ {0.5} & {1}\end{array}\right]$ 如图所示。

在这里插入图片描述

高斯分布的局限性

局限一：参数过大时，难以快速学习

$\Sigma_{P \times P} \rightarrow \frac{P^{2}-P}{2}+p=\frac{p^{2}+P}{2}~~~~~~$ 参数个数 $O(p^2)~~~~~~~~~~~~$ 参数过大学习困难

假设 $\Sigma_{p \times p}~$ 方差矩阵为对角矩阵， $\left(\begin{array}{ccc}{\lambda_{1}} \\ {} & {\ddots} & {} \\ {} & {} & {\lambda_{p}}\end{array}\right)$ 来缩小参数。
假设 $\Sigma_{p \times p}~$ 方差矩阵为对角矩阵，且 $\lambda_1=\lambda_2=...=\lambda_p=\lambda~~~~~$ 即就是 $\left(\begin{array}{ccc}{\lambda_{}} \\ {} & {\ddots} & {} \\ {} & {} & {\lambda_{}}\end{array}\right)$ 来进一步缩小参数。

在这里插入图片描述

factor analysis 假设为 对角矩阵。
P-PCA 各向同性。

局限二：有些时候用一个高斯分布建模难以确切表达模型。

GMM （高斯混合模型）采用多个高斯分布建模。

求多维高斯分布的边缘分布和条件概率分布

已知高维高斯分布的随机变量，均值，协方差:

$x=\left(\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{p}}\end{array}\right) \quad \mu=\left(\begin{array}{c}{\mu_{1}} \\ {\mu_{2}} \\ {\vdots} \\ {\mu_{p}}\end{array}\right)~~\Sigma=\left(\begin{array}{cccc}{\sigma_{11}} & {\sigma_{12}} & {\cdots} & {\sigma_{1 p}} \\ {\sigma_{21}} & {\sigma_{22}} & {\cdots} & {\sigma_{2 p}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {\sigma_{p 1}} & {\sigma_{p 2}} & {\cdots} & {\sigma_{p p}}\end{array}\right)_{p \times p}$

由于要求条件概率以及边缘概率，将随机变量分成两组：

$x=\left(\begin{array}{l}{x_{a}} \\ {x_{b}}\end{array}\right) \begin{array}{l}{(m)} \\ {(n)}\end{array} \quad m+n=p \quad \mu=\left(\begin{array}{l}{\mu_{a}} \\ {\mu_{b}}\end{array}\right)~~\Sigma=\left(\begin{array}{ll}{\Sigma_{a a}} & {\Sigma_{a b}} \\ {\Sigma_{b a}} & {{\Sigma}_{b b}}\end{array}\right)$

求： $P\left(x_{a}\right), P\left(x_{b} | x_{a}\right), P\left(x_{b}\right), P\left(x_{a} | x_{b}\right)$

在 PRML 中通用方法是配方法,思想简单，但计算量大。这里不使用。

引入定理： $\sim N(\mu, \Sigma), y=Ax+B,$ 则 $\sim N\left(A \mu+B, A \Sigma A^{\top}\right)$

$\mu+B$
$\operatorname{var}[y]=\operatorname{var}[A x+B]=\operatorname{var}[A x]+\operatorname{var}(B]=A \operatorname{var}[x] A^{T}=A \Sigma A^{T}$

解：
构造： $x_{a}=Ax=\left(I_{m}~~ 0\right)\left(\begin{array}{l}{x_{a}} \\ {x_{b}}\end{array}\right)=x_a$
有上述定理得:
$E\left[x_{a}\right]=\left(I_{m} 0\right)\left(\begin{array}{l}{\mu_{a}} \\ {\mu_{b}}\end{array}\right)=\mu_{a}$
$\operatorname{var}[y]=\operatorname{var}[A x+B]=\operatorname{var}[A x]+\operatorname{var}[B]=A \operatorname{Var}[x] A^{T}=A \Sigma A^{T}$
所以： $x_{a} \sim N\left(\mu_{a}, \Sigma_{a a}\right)$

求 $x_b|x_a$

定义三个变量：
$\begin{array}{l}{x_{b \cdot a}=x_{b}-\Sigma_{b a} \Sigma_{a a}^{-1} x_{a}} \\ {\mu_{b \cdot a}=\mu_{b}-\Sigma_{b a} \Sigma_{a a}^{-1} \mu_{a}} \\ {\Sigma_{b b\cdot a}=\Sigma_{b b}-\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b}}\end{array}$

其中 $~\Sigma_{b b\cdot a}$ 称为 schur complementary. (线性代数)

那么易构造 $x_{b \cdot a}=\left(-\Sigma_{b a} \Sigma_{a a}^{-1} ~I_{n}\right)\left(\begin{array}{l}{x_{a}} \\ {x_{b}}\end{array}\right)$
由上述定理得：
$E\left[x_{b\cdot a}\right]=\left(-\Sigma_{b a} \Sigma_{a a}^{-1} I_{n}\right)\left(\begin{array}{l}{\mu_{a}} \\ {\mu_{b}}\end{array}\right)=\mu_{b}-\Sigma_{b a} \Sigma_{a a}^{-1} \mu_{a}=\mu_{b\cdot a}$
$\operatorname{var}\left[x_{b \cdot a}\right]=\left(-\Sigma_{b a} \Sigma_{a a}^{-1} I_{n}\right)\left(\begin{array}{l}{\Sigma_{a a} ^{-1}\Sigma_{a b}} \\ {\Sigma_{b a} \Sigma_{b b}}\end{array}\right)\left(\begin{array}{c}{-\Sigma_{a a}^{-1} \Sigma_{b a}^T} \\ {I_{n}}\end{array}\right)$
$~~~~~~~~~~~~~~~==\left(0 \cdot \Sigma_{b b}-\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b}\right)\left(\begin{array}{c}{-\Sigma_{a a}^{-1} \Sigma_{b a}^T} \\ {I_{n}}\end{array}\right)=\Sigma_{b b}-\Sigma_{b a} \Sigma_{a a}^{-1} \Sigma_{a b}=\Sigma_{b b\cdot a}$
$x_{b\cdot a} \sim N\left(\mu_{b\cdot a}, \Sigma_{b b\cdot a}\right)$
$x_{b\cdot a}=x_{b}-\Sigma_{b a} \Sigma_{a a}^{-1} x_{a} \Rightarrow x_{b}=x_{b a}+\Sigma_{b a} \Sigma_{a a}^{-1} x_{a}~~~$ 这里 $x_a$ 为常数。

$\begin{array}{l}{E\left[x_{b} | x_{a}\right]=\mu_{b \cdot a}+\sum_{b a} \sum_{a a}^{-1} x_{a}} \\ {\operatorname{var}\left[x_{b} | x_{a}\right]=\operatorname{var}\left[x_{b \cdot a}\right]=\sum_{b b \cdot a}}\end{array}$

$x_{b} | x_{a} \sim N\left(\mu_{b a}+\Sigma_{b\cdot a}{\Sigma}_{a a}^{-1} x_{a}, \Sigma_{b b\cdot a}\right)$