混合高斯模型：Gaussian Mixture Model

最新推荐文章于 2024-07-16 17:56:45 发布

xholes

最新推荐文章于 2024-07-16 17:56:45 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签： GMM 混合高斯模型 EM算法参数估计

本文链接：https://blog.csdn.net/xholes/article/details/78351254

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

GMM

定义

(混合高斯模型) 高斯混合模型的概率分布模型形如：
$P(y\mid \theta) = \sum_{i =1 }^K \alpha_k \phi(y \mid \theta_k)$
其中， $\alpha_k$ 为系数，且 $\alpha_k\ge 0$ , $\sum_{i =1 }^{K} {\alpha_k}=1$ ; $\phi(y \mid \theta_k)$ 是第 $k$ 个高斯分布密度分模型， $\theta_k = (\mu_k,\sigma_k^2)$ 。
$\phi(y \mid \theta_k) = \frac{1}{\sqrt{2 \pi}\sigma_k}\exp\left({-\frac{(y-\mu_k)^2}{2\sigma_k^2}}\right)$

模型参数估计—EM求解

假设观测数据 $y_1,y_2,\cdots,y_n$ 由高斯混合模型生成，即 $P(y\mid \theta) = \sum_{i =1 }^K \alpha_k \phi(y \mid \theta_k)$ ，其中的参数 $\theta = (\alpha_1,\cdots,\alpha_k;\theta_1,\cdots,\theta_k)$

1、确定隐含变量，写出完全数据的对数似然函数
在混合高斯模型中存在多个分模型，观测变量的观测值并不知道是由哪一个模型生成的，因此可以假设隐变量 $\gamma_{jk}$ ，其定义为：
$\gamma_{jk}=\left \{ \begin{array}{} 1,\;第i个观测值由第k个分模型产生\\ 0,\;otherwise\\ \end{array} \right.$
由此，完全数据为 $(y_j,\gamma_{j1},\cdots,\gamma_{jK})$ ，可以得到完全数据的似然函数：
$\begin{aligned} P(y,\gamma \mid \theta) &= L(\theta)\\ &=\prod_{j=1}^n P(y_1,\gamma_{j1},\cdots,\gamma_{jK}\mid \theta)\\ &=\prod_{j=1}^n (\gamma_{jk}\sum_{i =1 }^K \alpha_k \phi(y_j \mid \theta_k))\\ &=\prod_{j=1}^n \left(\prod_{i =1 }^K \left(\alpha_k \phi(y_j \mid \theta_k)\right)^{\gamma_{jk}}\right)\\ &=\prod_{j=1}^n \prod_{i =1 }^K \left(\alpha_k \phi(y_j \mid \theta_k)\right)^{\gamma_{jk}}\\ &=\prod_{j=1}^n \prod_{i =1 }^K \left(\alpha_k \frac{1}{\sqrt{2 \pi}\sigma_k}\exp\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right)^{\gamma_{jk}}\\ \end{aligned}$
那么完全数据的对数似然函数为：
$\begin{aligned} \log P(y,\gamma \mid \theta) &= \ell (\theta)\\ &=\sum_{i=1}^K \sum_{j=1}^n \log \left(\alpha_k \frac{1}{\sqrt{2 \pi}\sigma_k}\exp\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right)^{\gamma_{jk}}\\ &=\sum_{i=1}^K\sum_{j=1}^n {\gamma_{jk}}\log \left(\alpha_k \frac{1}{\sqrt{2 \pi}\sigma_k}\exp\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right)\\ &=\sum_{i=1}^K\sum_{j=1}^n {\gamma_{jk}}\log \alpha_k +\sum_{i=1}^K\sum_{j=1}^n {\gamma_{jk}}\log \left(\frac{1}{\sqrt{2 \pi}\sigma_k}\exp\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right)\\ &=\sum_{i=1}^K\log \alpha_k\sum_{j=1}^n {\gamma_{jk}} +\sum_{i=1}^K\sum_{j=1}^n {\gamma_{jk}}\log \left(\frac{1}{\sqrt{2 \pi}\sigma_k}\exp\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right)\\ &=\sum_{i=1}^K\log \alpha_k\sum_{j=1}^n {\gamma_{jk}} +\sum_{i=1}^K\sum_{j=1}^n {\gamma_{jk}}\left [ \log\frac{1}{\sqrt{2 \pi}}-\log\sigma_k+\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right]\\ \end{aligned}$

2、E步：确定Q函数
$\begin{aligned} Q(\theta,\theta^{(i)}) &=E[ \log P(y,\gamma \mid \theta)\mid y,\theta^{(i)} ]\\ &=E\left\{\sum_{i=1}^K\log \alpha_k\sum_{j=1}^n {\gamma_{jk}} +\sum_{i=1}^K\sum_{j=1}^n {\gamma_{jk}}\left [ \log\frac{1}{\sqrt{2 \pi}}-\log\sigma_k+\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right]\right\}\\ &=\sum_{i=1}^K\left\{\log \alpha_k\sum_{j=1}^n {E\gamma_{jk}} +\sum_{j=1}^n {E\gamma_{jk}}\left [ \log\frac{1}{\sqrt{2 \pi}}-\log\sigma_k+\left({-\frac{(y_j-\mu_k)^2}{2\sigma_k^2}}\right)\right]\right\}\\ \end{aligned}$
记 $\hat \gamma_{jk}= E(\gamma_{jk}\mid y,\theta)$ 则：
$\begin{aligned} \hat \gamma_{jk} &= 1\cdot P(\gamma_{jk} = 1 \mid y,\theta)+ 0\cdot P(\gamma_{jk} = 0 \mid y,\theta)\\ &=\frac {P(\gamma_{jk} = 1 ,y_j\mid \theta)}{1}\\ &=\frac {P(\gamma_{jk} = 1 ,y_j\mid \theta)}{\sum_{k=1}^KP(\gamma_{jk} = 1 ,y_j\mid \theta)}\\ &=\frac {P(y_j\mid \gamma_{jk} = 1 ,\theta)P(\gamma_{jk} = 1\mid \theta)}{\sum_{k=1}^KP(y_j\mid \gamma_{jk} = 1 ,\theta)P(\gamma_{jk} = 1\mid \theta)}\\ &=\frac{\alpha_k \phi(y_j\mid \theta_{k})}{\sum_{k=1}^K\alpha_k \phi(y_j\mid \theta_{k})}\\ \end{aligned}$
$\hat \gamma_{jk}$ 是在当前模型下第 $j$ 个观测数据来自第 $k$ 个分模型的概率，成为分模型 $k$ 对观测数据 $y_j$ 的响应度。

3、M步
迭代中的M步是求函数 $Q(\theta, \theta^{(i)})$ 对 $\theta$ 的极大值，即：
$\theta^{(i+1)} =\arg \underset{\theta}{\max} \; Q(\theta,\theta^{(i)})$
依据 $Q$ 函数对各个参数( $\mu_k,\sigma_k^2,\alpha_k$ )求偏导并置其为0得到新的参数为：
$\begin{aligned} \hat \mu_k &= \frac{\sum_{j=1}^n \hat \gamma_{jk}y_j}{\sum_{j=1}^n\hat \gamma_{jk}}\\ \hat \sigma_k^2 &= \frac{\sum_{j=1}^n \hat \gamma_{jk}(y_j-\mu_k)^2}{\sum_{j=1}^n\hat \gamma_{jk}}\\ \hat \alpha_k &= \frac{\sum_{j=1}^n \hat \gamma_{jk}}{n}\\ \end{aligned}$