高斯分布的极大似然估计、多维高斯分布

最新推荐文章于 2023-11-10 17:41:17 发布

长路漫漫2021

最新推荐文章于 2023-11-10 17:41:17 发布

阅读量2.6k

点赞数 3

分类专栏： Math 文章标签：数理统计高斯分布无偏估计条件概率分布边缘概率分布

本文链接：https://blog.csdn.net/xq151750111/article/details/121231854

版权

Math 专栏收录该内容

20 篇文章 65 订阅

订阅专栏

1 高斯分布

这部分内容主要借鉴自机器学习-白板推导系列笔记（二）-数学基础。这里先假设我们拿到一堆数据，如下所示：
$Data：\pmb{X} = [\pmb{x}_{1},\pmb{x}_{2},\cdots ,\pmb{x}_{n}]^{T}_{n \times p}= \begin{bmatrix} \pmb{x}_{1}^{T}\\ \pmb{x}_{2}^{T}\\ \vdots \\ \pmb{x}_{n}^{T} \end{bmatrix}_{n \times p} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots &\vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{bmatrix}_{n \times p} \tag{1-1}$

其中， $x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T} \in \mathbb{R}^p，x_i \overset{iid} \sim N(\mu_i , \sigma_i^2)，\pmb{\theta}=(\boldsymbol{\mu},\boldsymbol{\Sigma})$ ， $i i d$ 表示独立同分布。

假设数据 $\pmb{X}$ 中有 $n$ 个样本，每个样本 $\pmb{x}_i$ 为 $p$ 维数据（含有 $p$ 个feature），所有的样本都独立同分布于高斯分布。

在上面的数据矩阵里，为了便于下面的推导，这里规定， $\pmb{x}_{ij}$ 表示第 $i$ 个样本的第 $j$ 个属性，用行向量 $\pmb{x}_i$ 代表第 $i$ 个样本的 $p$ 维数据，当 $p = 1$ 时，表示取出某一列（第 $j$ 列）数据进行分析，用随机变量 $X_{1j}, X_{2j}, \cdots, X_{nj}$ 表示，为了方便下面的推导，可以用随机变量 $X_{1}, X_{2}, \cdots, X_{n}$ 替代，取值分别是 $x_1, x_2, \cdots, x_n$ ；若分析每个样本 $\pmb{x}_i$ 的 $p$ 维数据，为了区分，用列向量 $\pmb{y}_j$ 代表所有样本的第 $j$ 特征的 $n$ 维数据，用随机变量 $Y_1(\xi), Y_2(\xi), \cdots, Y_p(\xi)$ 表示，此时用随机向量 $\pmb{Y}$ 表示。
下面的一维情况就是每个样本 $\pmb{x}_i$ 为 $p = 1$ 维数据（此时只对某一特征进行分析）；而多维情况就是每个样本 $\pmb{x}_i$ 为 $p$ 维数据（此时对所有特征进行分析）。

1.1 一维情况

1. 似然函数
        对于一维情况，即 $\pmb{\theta}=[\mu, \sigma^2]^T$ ，可知它的概率密度函数为：
$f(x)=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu )^{2}}{2\sigma ^{2}}) \tag{1-2}$
        需要估计的参数为 $\pmb{\theta}=[\mu, \sigma]^T$ ，则对于样本 $(X_1, X_2, \cdots, X_n)^T$ 的联合概率密度函数为 $\prod_{i=1}^{n}f(x_i; \theta)$ ，当给定样本值 $(x_1, x_2, \cdots, x_n)^T$ 后，它只是参数 $\pmb{\theta}$ 的函数，记为 $L(\pmb{\theta})$ ，即
$L(\pmb{\theta})=\prod_{i=1}^{n}f(x_i; \pmb{\theta}) \tag{1-3}$
        这个函数 $L$ 称为似然函数，即似然函数就是样本的联合概率密度函数。

2. 极大似然估计法
        频率派认为参数 $\pmb{\theta}$ 是一个固定的常数（constant），频率派常用的求解方法为极大似然估计法，即先对 $L(\pmb{\theta})$ 取对数，使得后续求导计算更加方便，而 $L(\pmb{\theta})$ 与 $ln(L(\pmb{\theta}))$ 在同一 $\pmb{\theta}$ 处取到极值，则
$\pmb{\theta}_{MLE}=\underset{\boldsymbol{\theta}}{argmax}\quad ln(L(\pmb{\theta})) \mathop{=}\limits _{iid}\mathop{argmax}\limits _{\boldsymbol{\theta}}\sum\limits _{i=1}^{n}\ln f(x_{i}; \boldsymbol{\theta}) \tag{1-4}$
        由于各样本都独立同分布于高斯分布，则
$\begin{aligned} ln(L(\boldsymbol{\theta})) &=ln\prod_{i=1}^{n}f(x_{i};\boldsymbol{\theta})\\ &=\sum_{i=1}^{n}ln\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})\\ &=\sum_{i=1}^{n}[ln\frac{1}{\sqrt{2\pi }}+ln\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}] \end{aligned} \tag{1-5}$
        由于 $\pmb{\theta}$ 是个二维的向量，所以分别求解 $\mu_{MLE}$ 和 $\sigma_{MLE}$
3. 求解 $\mu_{MLE}$
        由于常数项与优化无关故舍去，只需要保留含有 $\mu$ 的项，则
$\begin{aligned} \mu _{MLE} &=\underset{\mu }{argmax} \quad ln(L(\boldsymbol{\theta}))\\ &=\underset{\mu }{argmax}\sum_{i=1}^{N}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}\\ &=\underset{\mu }{argmin}\sum_{i=1}^{N}(x_{i}-\mu )^{2} \end{aligned} \tag{1-6}$
        接下来对其求导，找出极大值，
$\frac{\partial \sum_{i=1}^{N}(x_{i}-\mu )^{2}}{\partial \mu}=\sum_{i=1}^{N}2(x_{i}-\mu )(-1)=0\\ \Leftrightarrow \sum_{i=1}^{N}(x_{i}-\mu )=0\\ \Leftrightarrow \sum_{i=1}^{N}x_{i}-\underset{N\mu }{\underbrace{\sum_{i=1}^{N}\mu }}=0 \tag{1-7}$
        最终得到：
$\mu _{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_{i} \tag{1-8}$
        证明 $\mu _{MLE}$ 是无偏估计
$E[\mu _{MLE}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}] =\frac{1}{N}\sum_{i=1}^{N}\mu =\frac{1}{N}N\mu =\mu \tag{1-9}$

4. 求解 $\sigma_{MLE}$
$\begin{aligned} \sigma^2_{MLE} &= \underset{\sigma}{argmax} \sum_{i=1}^n[\ln{1\over\sigma}-{(x_i-\mu)^2\over2\sigma^2}]\\ &= \underset{\sigma} {argmax} \sum_{i=1}^n[-\ln{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2] \end{aligned} \tag{1-10}$
对 $\sigma$ 求导，找出最优解
${\partial\over\partial\sigma}\displaystyle\sum_{i=1}^N[-\ln{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2] =\displaystyle\sum_{i=1}^N[-{1\over\sigma}-{1\over2}(x_i-\mu)^2(-2){1\over\sigma^3}]=0 \\ \Leftrightarrow \sum_{i=1}^{N}[-\frac{1}{\sigma }+(x_{i}-\mu )^{2}\sigma ^{-3}]=0\\ \Leftrightarrow \sum_{i=1}^{N}[-\sigma ^{2}+(x_{i}-\mu )^{2}]=0\\ \Leftrightarrow -\sum_{i=1}^{N}\sigma ^{2}+\sum_{i=1}^{N}(x_{i}-\mu )^{2}=0\\ \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu )^{2} \tag{1-11}$

$\mu$ 取 $\mu_{MLE}$ 时，
$\sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2} \tag{1-12}$

要证明 $\sigma _{MLE}^{2}$ 是有偏估计，就需要判断 $E[\sigma _{MLE}^{2}]\overset{?}{=}\sigma ^{2}$ ，证明如下：
${D[\mu _{MLE}]}=D[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N^{2}}\sum_{i=1}^{N}D[x_{i}]=\frac{1}{N^{2}}\sum_{i=1}^{N}\sigma ^{2}=\frac{\sigma ^{2}}{N} \tag{1-13}$

$\begin{aligned}{\sigma _{MLE}^{2}} &=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}\\ &=\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu _{MLE}+\mu _{MLE}^{2})\\ &=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{1}{N}\sum_{i=1}^{N}2x_{i}\mu _{MLE}+\frac{1}{N}\sum_{i=1}^{N}\mu _{MLE}^{2}\\ &=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu _{MLE}^{2}+\mu _{MLE}^{2}\\ &=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu _{MLE}^{2} \end{aligned} \tag{1-14}$

$\begin{aligned} E[\sigma^2_{MLE}] &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-\mu^2_{MLE}]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i^2-\mu^2_{MLE})]\\ &={1\over N}\displaystyle\sum_{i=1}^N(E[x_i^2]-E[\mu^2_{MLE}])\\ &={1\over N}\displaystyle\sum_{i=1}^N(D[x_i]+{E[x_i]}^2-D[\mu_{MLE}]-{E[\mu_{MLE}]}^2)\\ &={1\over N}\displaystyle\sum_{i=1}^N(\sigma_{MLE}^2+\mu^2-\frac{\sigma ^{2}}{N} -\mu^2)\\ &={N-1 \over N}\sigma_{MLE}^2 \end{aligned} \tag{1-15}$
方差的无偏估计为：
$\hat{\sigma} ^{2}=\frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2} \tag{1-16}$

为什么 $\mu _{MLE}$ 是无偏估计，而 $\sigma _{MLE}^{2}$ 是有偏估计呢？
有两种理解方式：第一种：上面的推导中，当对 $\sigma_{MLE}$ 求期望的时候由于使用了单个数据集的 $\mu_{MLE}$ ，因此对所有数据集求期望的时候我们会发现 $\sigma_{MLE}$ 是有偏的；第二种：可以理解为当 $\mu$ 取 $\mu_{MLE}$ 就已经确定了所有 $x_{i}$ 的和等于 $n\mu_{MLE}$ ，也就是说当 $N - 1$ 个 $x_{i}$ 确定以后，第 $N$ 个 $x_{i}$ 也就被确定了，所以少了一个“自由度”，因此 $E[{\sigma_{MLE}^{2}}]=\frac{N-1}{N}\sigma ^{2}$

1.2 多维情况

对于高维情况，即要考虑每个样本 $\pmb{x}_i$ 为 $p$ 维数据，此时为了和上面的区分，按上面的定义，此时随机变量为
$Y_1(\xi), Y_2(\xi), \cdots, Y_p(\xi)$ ，而 $\pmb{\theta}=[\pmb{\mu}, \pmb{\Sigma}]^T$ ，此时由多元正态分布的定义可知，对于 $p$ 维随机向量 $\pmb{Y} = [Y_1(\xi), Y_2(\xi), \cdots, Y_p(\xi)]^T$ 的概率密度为：
$f(y_1,y_2, \cdots, y_p) =\frac{1}{(2\pi )^{p/2}|\boldsymbol{\Sigma} |^{1/2}}exp(-\frac{1}{2}\underset{二次型}{\underbrace{(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}})\quad \pmb{y}\in \mathbb{R}^{p} \tag{1-17}$
则称 $\pmb{Y}$ 服从 $p$ 维正态分布，也称 $\pmb{Y}$ 为 $p$ 维正态变量，记为 $\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma} )$ ，其中 $\pmb{\mu}$ 为 $\pmb{Y}$ 的均值向量， $\pmb{\Sigma}$ 为 $\pmb{Y}$ 的协方差矩阵（简称为协差阵）， $\pmb{\Sigma}$ 是实对称矩阵，一般是半正定的，在本次证明中假设是正定的，即所有的特征值都是正的。

        设随机向量 $\boldsymbol{Y}$ 的分量 $Y_i$ 的均值为 $E(Y_i)=\mu_i, i=1, 2, \cdots, p$ ，则定义 $\boldsymbol{Y}$ 的均值为
$E(\boldsymbol{Y}) = \begin{bmatrix} E{Y_1} \\ E{Y_2} \\\vdots \\ E{Y_p} \end{bmatrix} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \end{bmatrix} = \pmb{\mu} \tag{1-18}$
        其中 $\mu$ 是一个 $p$ 维的列向量，称为均值向量。
        而定义随机向量 $\boldsymbol{Y}$ 的协方差矩阵为
$D(\boldsymbol{Y}) = E[(\boldsymbol{Y} - E(\boldsymbol{Y}))(\boldsymbol{Y} - E(\boldsymbol{Y}))^T] = \begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp}\\ \end{bmatrix}_{p\times p} \overset{def}{=} \boldsymbol{\Sigma} \tag{1-19}$

其中， $\sigma_{ij} = E[({Y_i} - E{Y_i})({Y_j} - E{Y_j})], i,j =1, 2, \cdots, p$

下面简单推导一下 $p$ 维正态分布。考虑最简单的情况，在各元素相互统计独立的条件下，高斯随机向量的概率密度函数是向量的 $p$ 个随机变量的联合概率密度函数：
$\begin{aligned} f(\pmb{y}) = f(y_1, \cdots, y_p) &= f(y_1)\cdots f(y_p) \\&= \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(y_1-\bar{y}_1 )^{2}}{2\sigma_1^{2}}) \cdots \frac{1}{\sqrt{2\pi }\sigma_p^2 }exp(-\frac{(y_p-\bar{y}_p)^{2}}{2\sigma_p^{2}}) \\ &= \frac{1}{\sqrt{2\pi}^{p/2}\sigma_1 \cdots \sigma_p}exp(-\frac{(y_1-\bar{y}_1 )^{2}}{2\sigma_1^{2}} - \cdots - \frac{(y_p-\bar{y}_p)^{2}}{2\sigma_p^{2}}) \\ &= \frac{1}{\sqrt{2\pi}^{p/2}\rvert \Sigma \rvert ^{1/2}} exp(-\frac{1}{2}[y_1-\bar{y}_1, \cdots, y_p-\bar{y}_p] \begin{bmatrix} \sigma_1^{-2} & 0 & 0 \\\\ 0 & \ddots & 0 \\\\ 0 & 0 & \sigma_p^{-2} \end{bmatrix} \begin{bmatrix} y_1-\bar{y}_1 \\ \vdots \\ y_p-\bar{y}_p \end{bmatrix}) \end{aligned} \tag{1-20}$
整理后，即可得到各元素统计独立的高斯随机向量 $\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma} )$ 的概率密度函数为
$f(\pmb{y}) =\frac{1}{(2\pi )^{p/2}|\boldsymbol{\Sigma} |^{1/2}}exp(-\frac{1}{2}{(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}) \tag{1-21}$

若元素之间不相互统计独立，则高斯随机向量 $\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma} )$ 的概率密度函数仍然由式（1-21）给出，但指数项为：
${(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}=\sum_{i=1}^{p} \sum_{j=1}^{p}[\boldsymbol{\Sigma}^{-1}]_{i,j}(y_i-\mu_i)(y_j-\mu_j) \tag{1-22}$
式子中， $[\boldsymbol{\Sigma}^{-1}]_{i,j}$ 表示逆矩阵 $\boldsymbol{\Sigma}^{-1}$ 的 $(i, j)$ 元素。

通过矩阵和向量的乘法，我们可以知道 ${(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})})$ 是一个数，熟悉距离概念的小伙伴，会马上意识到这不就是在计算两个向量 $\pmb{y}$ 和 $\pmb{\mu}$ 之间的马氏距离，当 $\pmb{\Sigma}$ 为 $\pmb{I}$ 时马氏距离即为欧氏距离。

1.3 从概率密度函数角度观察

协方差矩阵的特征值分解
由前面的推导，我们知道高斯随机向量 $\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma})$ ，协方差矩阵 $\boldsymbol{\Sigma}$ 为正定实对称矩阵。而在矩阵论，我们知道任意的 $\times N$ 实对称矩阵都有 $N$ 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为1 的向量。故实对称矩阵 $\boldsymbol{\Sigma}$ 可被分解成 $\boldsymbol{\Sigma}=\boldsymbol{U\Lambda} \boldsymbol{U}^{T}$ 。
$\begin{aligned} \boldsymbol{\Sigma} &= \boldsymbol{U\Lambda} \boldsymbol{U}^T\\ &=(\boldsymbol{u_1},\boldsymbol{u_2},\cdots,\boldsymbol{u_p})\begin{pmatrix} \lambda_1&0&\cdots&0\\ 0&\lambda_2&\cdots&\vdots\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\lambda_p\\ \end{pmatrix} \begin{pmatrix} \boldsymbol{u_1}^T\\ \boldsymbol{u_2}^T\\ \vdots\\ \boldsymbol{u_p}^T \end{pmatrix}\\ &=(\boldsymbol{u_1}\lambda_1, \boldsymbol{u_2}\lambda_2,\cdots,\boldsymbol{u_p}\lambda_p)\begin{pmatrix} \boldsymbol{u_1}^T\\ \boldsymbol{u_2}^T\\ \vdots\\ \boldsymbol{u_p}^T \end{pmatrix}\\ &=\displaystyle\sum_{i=1}^p{\boldsymbol{u_i}\lambda_i\boldsymbol{u_i}^T} \end{aligned} \tag{1-23}$
则 $\boldsymbol{\Sigma}^{-1}$ 的结果如下，这里特征向量矩阵 $\boldsymbol{U}$ 是正交的，因此 $\boldsymbol{U}^T=\boldsymbol{U}^{-1}$ 。

$\boldsymbol{\Sigma}^{-1}=(\boldsymbol{U\Lambda} \boldsymbol{U}^T)^{-1}=(\boldsymbol{U}^T)^{-1}\boldsymbol{\Lambda}^{-1}\boldsymbol{U}^{-1}=\boldsymbol{U\Lambda}^{-1} \boldsymbol{U}^T =\displaystyle\sum_{i=1}^p{\boldsymbol{u_i}{1\over\lambda_i}\boldsymbol{u_i}^T} \tag{1-24}$
其中， $\Lambda^{-1}=diag(\frac{1}{\lambda _{i}}),i=1,2,\cdots ,p$
把上面的结果带入 ${(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})})$ ，下面的内容就是化成标准二次型，

$\begin{aligned} \Delta &=(\boldsymbol{x}-\boldsymbol{\mu} )^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{x}-\boldsymbol{\mu} )\\ &=(\boldsymbol{x}-\boldsymbol{\mu} )^{T}\sum_{i=1}^{p}\boldsymbol{u} _{i}\frac{1}{\lambda _{i}}\boldsymbol{u} _{i}^{T}(\boldsymbol{x}-\boldsymbol{\mu} )\\ &=\sum_{i=1}^{p}(\boldsymbol{x}-\boldsymbol{\mu} )^{T}\boldsymbol{u} _{i}\frac{1}{\lambda _{i}}\boldsymbol{u} _{i}^{T}(x-\mu )\\ &(令y_{i}=(\boldsymbol{x}-\boldsymbol{\mu})^{T}\boldsymbol{u} _{i}) ，此时 y_i 变为了一个标量，这一步很巧妙\\ &=\sum_{i=1}^{p}y_{i}\frac{1}{\lambda _{i}}y_{i}^{T}\\ &=\sum_{i=1}^{p}\frac{y_{i}^{2}}{\lambda _{i}} \end{aligned} \tag{1-25}$

上式中 $y_{i}=(x-\mu )^{T}u _{i}$ 可以理解为将 $x$ 减去均值进行中心化以后再投影到 $u _{i}$ 方向上，相当于做了一次坐标轴变换。

当 $x$ 的维度为2，即 $p = 2$ 时 $\Delta =\frac{y_{1}^{2}}{\lambda _{1}}+\frac{y_{2}^{2}}{\lambda _{2}}$ ，得到类似椭圆方程的等式，所以也就可以解释为什么其等高线是椭圆形状。

1.4 高斯分布的局限性

1. 参数过多
协方差矩阵 $\pmb{\Sigma} _{p\times p}$ 中的参数共有 $1+2+\cdots +p=\frac{p(p+1)}{2}$ 个（ $\pmb{\Sigma} _{p\times p}$ 是对称矩阵），因此当 $\pmb{x}$ 的维度 $p$ 很大时，高斯分布的参数就会有很多，其计算复杂度为 $O(p^{2})$ 。
可以通过假设高斯分布的协方差矩阵为对角矩阵来减少参数，当高斯分布的协方差矩阵为对角矩阵时，特征向量的方向就会和原坐标轴的方向平行，因此高斯分布的等高线（同心椭圆）就不会倾斜。

另外如果在高斯分布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其特征值全部相等（即 $\lambda _{1}=\lambda _{2}=\cdots=\lambda _{i}$ ），则高斯分布的等高线就会成为一个圆形，而且不会倾斜，称为各向同性。

2. 单个高斯分布拟合能力有限

单个高斯分布是单峰的，对有多个峰的数据分布不能得到好的结果。解决方案：高斯混合GMM 模型。

1.5 已知联合概率求边缘概率及条件概率

1. 将随机向量、均值和方差进行划分

将 $\pmb{y}$ 分为两部分，一部分为 $a$ 维 $\pmb{y}_a$ ，一部分为 $b$ 维 $\pmb{y}_b$ ， $\pmb{\mu}$ 和 $\pmb{\Sigma}$ 同理，则

$\pmb{y}=\begin{pmatrix} \pmb{y}_a\\ \pmb{y}_b\\ \end{pmatrix} \quad \pmb{\mu}=\begin{pmatrix} \pmb{\mu}_a\\ \pmb{\mu}_b\\ \end{pmatrix} \quad \pmb{\Sigma}=\begin{pmatrix} \pmb{\Sigma}_{aa}& \pmb{\Sigma}_{ab}\\ \pmb{\Sigma}_{ba}& \pmb{\Sigma}_{bb}\\ \end{pmatrix} \quad (a+b=p)\tag{1-26}$

将 $\pmb{y}$ 看为 $\pmb{y}_a$ 和 $\pmb{y}_b$ 的联合概率分布，求 $P(\pmb{y}_a)，P(\pmb{y}_b|\pmb{y}_a)$ ，同理可由对称性得知 $P(\pmb{y}_b)，P(\pmb{y}_a|\pmb{y}_b)$ ，通用方法配方法，详细过程可以参考《Pattern Recognition and Machine Learning》，这里使用另外一种简便方法。

        先引入一个常用定理，就是均值向量和协方差矩阵的性质，即
        已知：
$\pmb{Y}\sim N(\pmb{\mu} ,\pmb{\Sigma}),\pmb{y} \in \mathbb{R}^{p}\\ \pmb{Z}=\pmb{AY}+\pmb{B},\pmb{z}\in \mathbb{R}^{q} \tag{1-27}$
        结论：
$\pmb{Z}\sim N(\pmb{A\mu} +\pmb{B},\pmb{A\Sigma A}^{T})\tag{1-28}$
        一个简单但不严谨的证明（就是利用我们熟悉的期望和方差的性质）：
$E[\pmb{Z}]=E[\pmb{AY}+\pmb{B}]=\pmb{A}E[\pmb{Y}]+\pmb{B}=\pmb{A\mu} +\pmb{B}\\ \quad \\ \begin{aligned}D[\pmb{Z}] &=D[\pmb{AY}+\pmb{B}]\\ &=D[\pmb{AY}]+D[\pmb{B}]\\ &=\pmb{A}D[\pmb{Y}]\pmb{A}^{T}+0\\ &=\pmb{A\Sigma A}^{T}\end{aligned} \tag{1-29}$

2. 求边缘概率 $P(\pmb{y}_a)$

令 $\pmb{y}_a=\underbrace{\begin{pmatrix} \pmb{I}_m&\pmb{0}_n \end{pmatrix}}_{\boldsymbol{A}} \underbrace{\begin{pmatrix} \pmb{y}_a\\ \pmb{y}_b \end{pmatrix}}_{\boldsymbol{y}}+\underbrace \boldsymbol{0}_{\boldsymbol{B}}$

使用上述定理的结论，则：
$E[\pmb{y}_a]=\pmb{A\mu}+\pmb{B}=\begin{pmatrix}\pmb{I}_m&0 \end{pmatrix}\begin{pmatrix}\pmb{\mu}_a\\ \pmb{\mu}_b\end{pmatrix}+0 =\pmb{\mu}_a \tag{1-30}$

$D[\boldsymbol{y}_a]=\boldsymbol{A\Sigma A}^T=\begin{pmatrix}\boldsymbol{I}_m&0 \end{pmatrix} \begin{pmatrix} \boldsymbol{\Sigma}_{aa}&\boldsymbol{\Sigma}_{ab}\\ \boldsymbol{\Sigma}_{ba}&\boldsymbol{\Sigma}_{bb}\\ \end{pmatrix} \begin{pmatrix}\boldsymbol{I}_m\\\boldsymbol{0} \end{pmatrix}= \begin{pmatrix}\boldsymbol{\Sigma}_{aa}&\boldsymbol{\Sigma}_{ab} \end{pmatrix}\begin{pmatrix}\boldsymbol{I}_m\\\boldsymbol{0} \end{pmatrix}=\boldsymbol{\Sigma}_{aa}\tag{1-31}$
所以 $\boldsymbol{y}_{a}\sim N(\boldsymbol{\mu} _{a},\boldsymbol{\Sigma} _{aa})$ ，同理 $\boldsymbol{y}_{b}\sim N(\boldsymbol{\mu} _{b},\boldsymbol{\Sigma} _{bb})$

3. 求条件概率 $P(\pmb{y}_b|\pmb{y}_a)$

构造 $\begin{cases} \pmb{y}_{b\cdot a}=\pmb{y}_b-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{y}_a \\ \pmb{\mu}_{b\cdot a}=\pmb{\mu}_b-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\mu}_a \\ \pmb{\Sigma}_{bb\cdot a}=\pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab} \end{cases}$

这里 $\pmb{\Sigma}_{bb\cdot a}$ 是 $\pmb{\Sigma}_{bb}$ 的 Schur Complementary

$\pmb{y}_{b\cdot a}$ 是 $\pmb{y}_{b}$ 与 $\pmb{y}_{a}$ 的线性组合，故其服从高斯分布
（1）求 $\pmb{\Sigma}_{bb\cdot a}$ 的概率分布函数
先对 $\pmb{\Sigma}_{bb\cdot a}$ 进行变换，使其能够应用上述定理直接得出结果
$\pmb{y}_{b\cdot a}=\underbrace{\begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}& \pmb{I} \end{pmatrix}}_{\boldsymbol{A}} \underbrace{\begin{pmatrix} \pmb{y}_a\\\pmb{y}_b \end{pmatrix}}_{\boldsymbol{y}}\tag{1-32}$

使用上述定理得：
$E[\pmb{y}_{b\cdot a}]=\begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}& \pmb{I} \end{pmatrix}\begin{pmatrix} \pmb{\mu}_a\\ \pmb{\mu}_b \end{pmatrix} =\pmb{\mu}_b-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\mu}_a=\pmb{\mu}_{b\cdot a}\tag{1-33}$

$\begin{aligned} D[\pmb{y}_{b\cdot a}]&=\begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}& \pmb{I} \end{pmatrix}\begin{pmatrix} \pmb{\Sigma}_{aa}& \pmb{\Sigma}_{ab}\\ \pmb{\Sigma}_{ba}& \pmb{\Sigma}_{bb}\\ \end{pmatrix} \begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\\ \pmb{I} \end{pmatrix}\\ &=\begin{pmatrix} \pmb{\Sigma}_{ba}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{aa} &\pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab} \end{pmatrix} \begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\\\pmb{I} \end{pmatrix}\\ &=\begin{pmatrix} \pmb{0} & \pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab} \end{pmatrix} \begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\\ \pmb{I} \end{pmatrix}\\ &=\pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab}\\ &=\pmb{\Sigma}_{bb\cdot a} \end{aligned}\tag{1-34}$

因此可以得到 $\pmb{y}_{b\cdot a}\sim N(\pmb{\mu} _{b\cdot a},\pmb{\Sigma} _{bb\cdot a})$ 。根据 $\pmb{y}_{b}$ 与 $\pmb{y}_{b\cdot a}$ 的关系可以得到 $\pmb{y}_{b}|\pmb{y}_{a}$ 的分布：
由第一个引入的量可以得到：
$\pmb{y}_{b}=\underset{\boldsymbol{y}}{\underbrace{\pmb{y}_{b\cdot a}}}+\underset{\boldsymbol{B}}{\underbrace{\pmb{\Sigma} _{ba}\pmb{\Sigma} _{aa}^{-1}\pmb{y}_{a}}} \tag{1-35}$

在求条件概率 $P(\pmb{y}_{b}| \pmb{y}_{a})$ 时 $\pmb{y}_{a}$ 对于 $\pmb{y}_{b}$ 来说可以看做已知，因此上式中 $\pmb{\Sigma} _{ba} \pmb{\Sigma} _{aa}^{-1} \pmb{y}_{a}$ 看做常量 $\pmb{B}$ 。下面直接使用 $\pmb{y}_{b}$ 的表达式计算 $\pmb{y}_{b}| \pmb{y}_{a}$ ，原因是条件概率的含义为在已知 $\pmb{y}_{a}$ 的条件下求 $\pmb{y}_{b}$ 的概率，因此这里假设 $\pmb{y}_{a}$ 已知，作为常量处理了。

此处同样利用上述定理，可以求得：
$E[\pmb{y}_b|\pmb{y}_a]=\pmb{\mu}_{b\cdot a}+\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{y}_a\\ \quad \\ D[\pmb{y}_b|\pmb{y}_a]=D[\pmb{y}_{b\cdot a}] = \pmb{\Sigma}_{bb\cdot a}\tag{1-36}$
因此 $\pmb{y}_b|\pmb{y}_a\sim N(\pmb{\mu}_{b\cdot a}+\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{y}_a,\pmb{\Sigma}_{bb\cdot a})$

利用对称性求另外两个量
$\pmb{y}_b\sim N(\pmb{\mu}_b,\pmb{\Sigma}_{bb})\tag{1-37}$
$\pmb{y}_a|\pmb{y}_b\sim N(\pmb{\mu}_{a\cdot b}+\pmb{\Sigma}_{ab}\pmb{\Sigma}_{bb}^{-1}x_b,\pmb{\Sigma}_{aa\cdot b}) \tag{1-38}$

1.6 已知边缘和条件概率求联合概率分布

上一节是已知一个多维高斯分布的联合概率，求其边缘概率分布及条件概率分布。而本节是已知
$\begin{cases} \pmb{y} \sim N(\pmb{\mu},\pmb{\Lambda}^{-1}) \\ \quad \\ \pmb{z}|\pmb{y} \sim N(\pmb{Ay}+\pmb{b},\pmb{L}^{-1}) \end{cases} \tag{1-39}$
其中， $\pmb{\Lambda}^{-1}、\pmb{L}^{-1}$ 是精度矩阵（precision matrix），即 $precision \ matrix=(convariance \ matrix)^{-1}$

这部分内容依然可以使用配方法推导，详细过程可以参考《Pattern Recognition and Machine Learning》，下面我们还采用构造性证明。

1. 求解 $P(\pmb{z})$
        上面的式子，我们知道 $\pmb{z}$ 与 $\pmb{y}$ 有线性关系 $\pmb{z} = \pmb{Ay}+\pmb{b}$ ，即 $\pmb{z}$ 与 $\pmb{y}$ 的关系为线性高斯模型，则 $\pmb{z}$ 与 $\pmb{y}$ 符合下述关系：
$\pmb{z} = \pmb{Ay}+\pmb{b}+\pmb{\epsilon} \tag{1-40}$
        其中， $\pmb{y}、\pmb{z}、\pmb{\epsilon}$ 都是随机变量， $\pmb{\epsilon}\sim N(0,\pmb{L}^{-1})$ 且与 $\pmb{y}$ 独立。
        所以，
$E[\pmb{z}]=E[\pmb{Ay}+\pmb{b}+\pmb{\epsilon}]=\pmb{A}E[\pmb{y}]+\pmb{b}+E[\pmb{\epsilon}]=\pmb{A\mu}+\pmb{b} \\ \quad \\ D[\pmb{z}]=D[\pmb{Ay}+\pmb{b}+\pmb{\epsilon}]=D[\pmb{Ay}+\pmb{b}]+D[\pmb{\epsilon}] \tag{1-41}$
        利用式子（1-28）的结论可以求得： $D[\pmb{Ay}+\pmb{b}]=\pmb{A}D[\pmb{y}]\pmb{A}^T=\pmb{A}\pmb{\Lambda}^{-1} \pmb{A}^T$
        因此： $D[\pmb{z}]=\pmb{A\Lambda}^{-1}\pmb{A}^T+\pmb{L}^{-1}$
        所以：
$\pmb{z}\sim N(\pmb{A\mu}+\pmb{b},\pmb{A\Lambda}^{-1}\pmb{A}^T+\pmb{L}^{-1}) \tag{1-42}$

2. 求解 $P(\pmb{y}|\pmb{z})$
        对于此问题，可以使用上一节的结论进行求解，即先求出联合概率分布，再求此条件概率
        构造 $\pmb{w}=\begin{pmatrix}\pmb{y}\\\pmb{z} \end{pmatrix}$ ，则可以得到：
$\begin{aligned} E[\pmb{w}] &=\begin{pmatrix}\pmb{\mu}\\ \pmb{A\mu}+\pmb{b} \end{pmatrix}\\ \quad \\ D[\pmb{w}] &=\begin{pmatrix} cov(\pmb{y},\pmb{y})&cov(\pmb{y},\pmb{z})\\ cov(\pmb{z},\pmb{y})&cov(\pmb{z},\pmb{z}) \end{pmatrix} =\begin{pmatrix} \pmb{\Lambda}^{-1}&cov(\pmb{y},\pmb{z})\\ cov(\pmb{z},\pmb{y})& \pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T \end{pmatrix} \end{aligned} \tag{1-43}$
        其中
$\begin{aligned} cov(\pmb{y},\pmb{z})&=E[(\pmb{y}-E[\pmb{y}])\cdot (\pmb{z}-E[\pmb{z}])^T]\\ &=E[(\pmb{y}-\pmb{\mu})\cdot (\pmb{Ay}+\pmb{b}+\pmb{\epsilon}-\pmb{A\mu}-\pmb{b})^T]\\ &=E[(\pmb{y}-\pmb{\mu})\cdot (\pmb{Ay}-\pmb{A\mu}+\pmb{\epsilon})^T]\\ &=E[(\pmb{y}-\pmb{\mu})\cdot(\pmb{Ay}-\pmb{A\mu})^T+(\pmb{y}-\pmb{\mu})\cdot\pmb{\epsilon}^T]\\ &=E[(\pmb{y}-\pmb{\mu})(\pmb{y}-\pmb{\mu})^T\pmb{A}^T]+E[(\pmb{y}-\pmb{\mu})\pmb{\epsilon}^T] \end{aligned} \tag{1-44}$
        因为 $\pmb{y}$ 与 $\pmb{\epsilon}$ 独立，所以 $\pmb{y}-\pmb{\mu}$ 与 $\pmb{\epsilon}$ 独立，因此
$E[(\pmb{y}-\pmb{\mu})\pmb{\epsilon}^T]=E[\pmb{y}-\pmb{\mu}]\cdot E[\pmb{\epsilon}^T]=(E[\pmb{y}]-\pmb{\mu})E[\pmb{\epsilon}^T]=0 \tag{1-45}$
        所以，
$\begin{aligned} cov(\pmb{y},\pmb{z})&=E[(\pmb{y}-\pmb{\mu})(\pmb{y}-\pmb{\mu})^T\pmb{A}^T] \\&=E[(\pmb{y}-\pmb{\mu})(\pmb{y}-\pmb{\mu})^T]\pmb{A}^T\\ &=D[\pmb{y}]\pmb{A}^T\\ &=\pmb{\Lambda}^{-1}\pmb{A}^T \end{aligned} \tag{1-46}$
        由对称性得： $cov(\pmb{z},\pmb{y})=\pmb{A}\pmb{\Lambda}^{-1}$
        因此，
$D[\pmb{z}] =\begin{pmatrix} \pmb{\Lambda}^{-1}&\pmb{\Lambda}^{-1}\pmb{A}^T\\ \pmb{A}\pmb{\Lambda}^{-1}&\pmb{L}^{-1}+\pmb{A}\pmb{\Lambda}^{-1}\pmb{A}^T \end{pmatrix}\tag{1-47}$
        所以，
$\pmb{z} \sim N(\begin{pmatrix}\pmb{\mu}\\\pmb{A\mu}+\pmb{b} \end{pmatrix},\begin{pmatrix} \pmb{\Lambda}^{-1}&\pmb{\Lambda}^{-1}\pmb{A}^T\\ \pmb{A\Lambda}^{-1}&\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T \end{pmatrix})\tag{1-48}$

使用上节式子（1-38）的结论，可以得到：
$E[\pmb{y}|\pmb{z}]=\pmb{\mu} + \pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}(\pmb{z}-\pmb{A\mu}-\pmb{b})\\ \quad \\ D[\pmb{y}|\pmb{z}]=\pmb{\Lambda}^{-1}-\pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}\pmb{A\Lambda}^{-1}\tag{1-49}$
因此，得到最终结果：
$\pmb{y}|\pmb{z} \sim N(\pmb{\mu} + \pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}(\pmb{z}-\pmb{A\mu}-\pmb{b}),\pmb{\Lambda}^{-1}-\pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}\pmb{A\Lambda}^{-1})\tag{1-50}$