混合高斯模型介绍以及应用

1. 单一的高斯模型(Gaussian single model, GSM)

一维形式下的正态分布函数如下所示
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} f(x)=2π σ1e2σ2(xμ)2

μ \mu μ以及 σ 2 \sigma^{2} σ2是数据分布的均值和方差。对于多维形式 X = ( x 1 , x 2 , … , x D ) X=(x_{1},x_{2},\dots,x_{D}) X=(x1,x2,,xD)的正态分布函数如下所示
f ( X ) = 1 ( 2 π ) D ∣ Σ ∣ e − 1 2 ( X − μ ) T Σ − 1 ( X − μ ) f(\textbf{X})=\frac{1}{\sqrt{(2\pi)^{D}|\Sigma|}}e^{-\dfrac{1}{2}(\textbf{X}-\mu)^{T}\Sigma^{-1}(\textbf{X}-\mu)} f(X)=(2π)DΣ 1e21(Xμ)TΣ1(Xμ)

它的一些形式可以在文章深度学习中的一些概率函数分布以及文章数据挖掘中使用到的抽样分布函数找到。

单一的高斯模型有这样的一些缺点,当它模拟具有单一中心点的数据的时候,拟合效果比较好;但是对于多数据中心点的时候,拟合效果就不会有太好的效果。所以这就引出了混合高斯模型。

2. 混合高斯模型(GMM模型)

通过求解多个高斯模型,并通过一定的权重将几个高斯模型融合成一个模型,即最终的混合高斯模型。这个混合高斯模型可以产生这样的统计的样本。假设混合高斯模型是由 N N N个高斯模型所组成,那么由全概率公式可以得到
P ( y ∣ θ ) = ∑ k = 1 N P ( θ k ) P ( y ∣ θ k ) = ∑ k = 1 N π k N ( y ∣ θ k ) P(y|\theta)=\sum\limits_{k=1}^{N}P(\theta_{k})P(y|\theta_{k})=\sum\limits_{k=1}^{N}\pi_{k}N(y|\theta_{k}) P(yθ)=k=1NP(θk)P(yθk)=k=1NπkN(yθk)

其中 π k ≥ 0 , ∑ k = 1 N π k = 1 \pi_{k}\geq{0},\sum\limits_{k=1}^{N}\pi_{k}=1 πk0,k=1Nπk=1, N ( y ∣ θ k ) N(y|\theta_{k}) N(yθk)高斯分布密度函数, θ k = ( μ k , σ k 2 ) \theta_{k}=(\mu_{k},\sigma_{k}^{2}) θk=(μk,σk2)。以下的分布称为第 k k k个高斯分布模型:
N ( y ∣ θ k ) = 1 2 π σ k e − ( x − μ k ) 2 2 σ k 2 N(y|\theta_{k})=\dfrac{1}{\sqrt{2\pi}\sigma_{k}}e^{-\frac{(x-\mu_{k})^{2}}{2\sigma_{k}^{2}}} N(yθk)=2π σk1e2σk2(xμk)2

2.1 混合高斯模型直观上的理解和描述

笔者在下图中举例了几种单高斯模型和混合高斯模型的结果。
比较图由图可以得到,对于混合高斯模型 P ( y , θ ) = ∑ k = 1 N π k N ( y ∣ θ k ) , θ k = ( μ k , σ k 2 ) P(y,\theta)=\sum\limits_{k=1}^{N}\pi_{k}N(y|\theta_{k}),\theta_{k}=(\mu_{k},\sigma_{k}^{2}) P(y,θ)=k=1NπkN(yθk),θk=(μk,σk2)中出现的峰值对应的横坐标即为 μ k \mu_{k} μk。所以说,它在另一方面有更复杂更多变的概率密度函数曲线,混合高斯模型的概率密度函数曲线可以是任意形状的非线性函数。
接下来我们来看另一种二维图形平面上的混合高斯分布图。
二维混合高斯图这里选择了四个中心点的坐标 ( 6 , 3 ) , ( − 2 , 5 ) , ( − 7 , − 6 ) , ( 7 , − 6 ) (6,3),(-2,5),(-7,-6),(7,-6) (6,3),(2,5),(7,6),(7,6),然后将其赋值不同的权重值,形成如图所示的等高线图。
平面图
由上述两个图片可以看出,多个混合高斯分布函数已经将函数描述非常复杂,通过调整混合高斯分布的系数 ( π , μ , Σ ) (\pi,\mu,\Sigma) (π,μ,Σ),可以使得图中的概率密度曲面去拟合任意的三维曲面,从而采样生成所需要的数据样本。

2.2 极大似然估计(Maximum Likehood Estimate, MLE)

极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计。求极大似然估计值的一般步骤如下所示
(1) 写出似然函数;
(2)对数似然函数取对数,并整理;
(3)求导数;
(4)解似然方程。

2.3 EM算法求解混合高斯模型

3. 应用(使用python和MATLAB实现混合高斯模型)

小结

参考文献

[1] https://blog.csdn.net/weixin_38206214/article/details/81064625
[2] https://blog.csdn.net/lin_limin/article/details/81048411
[3] 统计学习方法,李航

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值