混合高斯模型介绍以及应用

最新推荐文章于 2024-09-27 10:52:55 发布

Mobtgzhang

最新推荐文章于 2024-09-27 10:52:55 发布

阅读量3.1k

点赞数

混合高斯模型

1. 单一的高斯模型(Gaussian single model, GSM)
2. 混合高斯模型(GMM模型)
3. 应用(使用python和MATLAB实现混合高斯模型)
小结
参考文献

1. 单一的高斯模型(Gaussian single model, GSM)

一维形式下的正态分布函数如下所示
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$

$\mu$ 以及 $\sigma^{2}$ 是数据分布的均值和方差。对于多维形式 $X=(x_{1},x_{2},\dots,x_{D})$ 的正态分布函数如下所示
$f(\textbf{X})=\frac{1}{\sqrt{(2\pi)^{D}|\Sigma|}}e^{-\dfrac{1}{2}(\textbf{X}-\mu)^{T}\Sigma^{-1}(\textbf{X}-\mu)}$

它的一些形式可以在文章深度学习中的一些概率函数分布以及文章数据挖掘中使用到的抽样分布函数找到。

单一的高斯模型有这样的一些缺点，当它模拟具有单一中心点的数据的时候，拟合效果比较好；但是对于多数据中心点的时候，拟合效果就不会有太好的效果。所以这就引出了混合高斯模型。

2. 混合高斯模型(GMM模型)

通过求解多个高斯模型，并通过一定的权重将几个高斯模型融合成一个模型，即最终的混合高斯模型。这个混合高斯模型可以产生这样的统计的样本。假设混合高斯模型是由 $N$ 个高斯模型所组成，那么由全概率公式可以得到
$P(y|\theta)=\sum\limits_{k=1}^{N}P(\theta_{k})P(y|\theta_{k})=\sum\limits_{k=1}^{N}\pi_{k}N(y|\theta_{k})$

其中 $\pi_{k}\geq{0},\sum\limits_{k=1}^{N}\pi_{k}=1$ , $N(y|\theta_{k})$ 高斯分布密度函数， $\theta_{k}=(\mu_{k},\sigma_{k}^{2})$ 。以下的分布称为第 $k$ 个高斯分布模型：
$N(y|\theta_{k})=\dfrac{1}{\sqrt{2\pi}\sigma_{k}}e^{-\frac{(x-\mu_{k})^{2}}{2\sigma_{k}^{2}}}$

2.1 混合高斯模型直观上的理解和描述

笔者在下图中举例了几种单高斯模型和混合高斯模型的结果。
比较图由图可以得到，对于混合高斯模型 $P(y,\theta)=\sum\limits_{k=1}^{N}\pi_{k}N(y|\theta_{k}),\theta_{k}=(\mu_{k},\sigma_{k}^{2})$ 中出现的峰值对应的横坐标即为 $\mu_{k}$ 。所以说，它在另一方面有更复杂更多变的概率密度函数曲线，混合高斯模型的概率密度函数曲线可以是任意形状的非线性函数。
接下来我们来看另一种二维图形平面上的混合高斯分布图。
二维混合高斯图这里选择了四个中心点的坐标 $(6, 3), (- 2, 5), (- 7, - 6), (7, - 6)$ ,然后将其赋值不同的权重值，形成如图所示的等高线图。
平面图
由上述两个图片可以看出，多个混合高斯分布函数已经将函数描述非常复杂，通过调整混合高斯分布的系数 $(\pi,\mu,\Sigma)$ ，可以使得图中的概率密度曲面去拟合任意的三维曲面，从而采样生成所需要的数据样本。