11 高斯混合模型：GMM

最新推荐文章于 2024-09-12 10:37:07 发布

weixin_46125345

最新推荐文章于 2024-09-12 10:37:07 发布

阅读量393

点赞数

分类专栏：机器学习文章标签：深度学习

原文链接：https://blog.csdn.net/cengjing12/article/details/106535515

版权

机器学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

11 高斯混合模型：GMM

1 模型介绍
- 1.1 从几何的角度看
- 1.2 从混合模型角度来看(生成模型)
2 极大似然估计：Maximum Likelihood Estimation
- 2.1 Maximum Likelihood Estimation 求解参数
- 2.2 MLE 的问题
3 EM进行求解
- 3.1 E-Step
- 3.2 M-Step

这一章开始，我们将进入到Guassian Mixture Model (GMM) 的学习。而为什么要学习GMM 呢？这是因为单峰分布已经不能准备的反映数据的分布了。正如下面的一个分布：
在这里插入图片描述
对于如上的数据分布来说，如果强行用单峰的 Guassian Distribution 来表示这个分布，显然是可以的。但是，很明显是不合适的。会造成较大的误差，不能较好的表示整个数据的分布特征。

1 模型介绍

1.1 从几何的角度看

从几何角度来看比较的简单，也就是多个高斯分布来取加权平均值。也就是一个混合高斯分布就是多个高斯分布叠加而成的。那么，概率密度函数，可以被我们写成： $p(x)=\sum_{k=1}^{K} \alpha_{k} \mathcal{N}\left(\mu_{k}, \Sigma_{k}\right), \quad \sum_{k=1}^{K} \alpha_{k}=1$

1.2 从混合模型角度来看(生成模型)

如果当输入变量的维度高于一维的时候，我们就不能使用简单的加权来看了。因为，这时，我们已经无法简单的用加权平均来计算了，正如下图所示。其中，X 是Observable Variable，Z 是Latent Variable。这个 Z 是个什么意思呢？我们先举一个小例子。看到图2 中那个打了红圈圈的数据点。它既属于C1 的分布，并且也属于C2 的分布，我们可以写作：
在这里插入图片描述 $\left\{\begin{array}{l} X \sim C_{1} \\ X \sim C_{2} \end{array}\right.$ 这样写太麻烦了，我们可以直接写成 $\sim Z$ ，这里的 Z 就是一个离散的随机变量，它包含了 $\cdots,C_N$ 的概率分布。Z 其实就是看对应的样本X 是属于哪一个高斯分布的概率。可以被我们写成：
在这里插入图片描述
并且， $\sum_kP_k=1$ 。接下来，我们来说一说，如何来生成 N 个样本点 $\cdots,C_N$ 。
我们假设有一个骰子，有 K 个面，每个面都是不均匀的，假设我们可以控制每一个面的质量，这个骰子的面出现的概率会符合 $P (Z)$ 。有 K 个面，就有 K 个高斯分布。那么每次我们就投一下这个骰子，根据出现的面 K，选择在第 K 个高斯分布中进行采样，生成一个样本点 $x_i$ 。
概率图可以被我们描述为如下形式：
在这里插入图片描述
$\begin{aligned} P(x) &=\sum_{Z} P(X, Z) \\ &=\sum_{k=1}^{K} P\left(X, z=C_{k}\right) \\ &=\sum_{k=1}^{K} P\left(z=C_{k}\right) \cdot P\left(X | z=C_{k}\right) \\ &=\sum_{k=1}^{K} P_{k} \cdot \mathcal{N}\left(X | \mu_{k}, \Sigma_{k}\right) \end{aligned}$ 我们根据一个离散的随机变量 Z 来选择是选取那个高斯分布，利用这个高斯分布 $\mathcal{N}\left(\mu_{}, \Sigma_{}\right)$ 来采样得到我们想要的样本点。而且，离散随机变量 Z 符合一个离散分布 $(p_1, p_2, \cdots p_k)$ 。

2 极大似然估计：Maximum Likelihood Estimation

本节我们想使用极大似然估计来求解Gaussian Mixture Model (GMM) 的最优参数结果。首先，
我们明确一下参数的意义：
$X=\left(x_{1}, x_{2}, \cdots, x_{N}\right)$
$Z)=\left\{\left(x_{1}, z_{1}\right),\left(x_{2}, z_{2}\right), \cdots,\left(x_{N}, z_{N}\right)\right\}$
$\theta=\left\{P_{1}, \cdots, P_{k}, \mu_{1}, \cdots, \mu_{k}, \Sigma_{1}, \cdots, \Sigma_{k}\right\}$

2.1 Maximum Likelihood Estimation 求解参数

$\begin{aligned} P(x) &=\sum_{Z} P(X, Z) \\ &=\sum_{k=1}^{K} P\left(X, z=C_{k}\right) \\ &=\sum_{k=1}^{K} P\left(z=C_{k}\right) \cdot P\left(X | z=C_{k}\right) \\ &=\sum_{k=1}^{K} P_{k} \cdot \mathcal{N}\left(X | \mu_{k}, \Sigma_{k}\right) \end{aligned}$ 其中， $P_k$ 也就是数据点去第 $k$ 个高斯分布的概率。下面我们开始使用MLE 来求解 $\theta$ ：
$\begin{aligned} \hat{\theta}_{M L E} &=\arg \max _{\theta} \log P(X) \\ &=\arg \max _{\theta} \log \prod_{i=1}^{N} P\left(x_{i}\right) \\ &=\arg \max _{\theta} \sum_{i=1}^{N} \log P\left(x_{i}\right) \\ &=\arg \max _{\theta} \sum_{i=1}^{N} \log \sum_{k=1}^{K} P_{k} \cdot \mathcal{N}\left(x_{i} | \mu_{k}, \Sigma_{k}\right) \end{aligned}$ 我们想要求的 $\theta$ 包括 $\theta=\left\{P_{1}, \cdots, P_{k}, \mu_{1}, \cdots, \mu_{k}, \Sigma_{1}, \cdots, \Sigma_{k}\right\}$ 。

2.2 MLE 的问题

按照之前的思路，我们就要分别对每个参数进行求偏导来计算最终的结果。但是问题马上就来了，大家有没有看到 log 函数里面是一个求和的形式，而不是一个求积的形式。这意味着计算非常的困难。甚至可以说，我们根本就求不出解析解。如果是单一的Gaussian Distribution：
$\log P\left(x_{i}\right)=\log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma}\right\}$ 根据 log 函数优秀的性质，这个问题是可以解的。但是，很不幸后面是一个求和的形式。所以，直接使用MLE 求解GMM，无法得到解析解。故⽽引出下⾯两节的内容: ⽤EM 对GMM 求解：

3 EM进行求解

上一小节中，我们看到了使用极大似然估计的方法，我们根本就求不出最优参数的解析解。所以，我们使用迭代的方法来求近似解。
EM 算法的表达式，可以被我们写为：
$\theta^{(t+1)}=\arg \max _{\theta} \underbrace{\mathbb{E}_{P\left(Z | X, \theta^{(t)}\right)}[\log P(X, Z | \theta)]}_{Q\left(\theta, \theta^{(t)}\right)}$ 经过一系列的迭代，我们可以得到 $\theta^0,\theta^1\cdots,\theta^{t}$ 迭代到一定次数以后我们得到的 $\theta^N$ 就是我们想要得到的结果。EM 算法大体上可以分成两个部分，E-step 和M-step，

3.1 E-Step

$\begin{aligned} Q\left(\theta, \theta^{(t)}\right) &=\int_{Z} \log P(X, Z | \theta) \cdot P\left(Z | X, \theta^{(t)}\right) d Z \\ &=\sum_{Z} \log \prod_{i=1}^{N} P\left(x_{i}, z_{i} | \theta\right) \cdot \prod_{i=1}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z \\ &=\sum_{z_{1}, \cdots, z_{N}} \sum_{i=1}^{N} \log P\left(x_{i}, z_{i} | \theta\right) \cdot \prod_{i=1}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z \\ &=\sum_{z_{1}, \cdots, z_{N}}\left[\log P\left(x_{1}, z_{1} | \theta\right)+\log P\left(x_{2}, z_{2} | \theta\right)+\cdots \log P\left(x_{N}, z_{N} | \theta\right)\right] \cdot \prod_{i=1}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z \end{aligned}$
为了简化推导，我们首先只取第一项来化简一下，
$\begin{array}{l} \sum_{z_{1}, \cdots, z_{N}} \log P\left(x_{1}, z_{1} | \theta\right) \cdot \prod_{i=1}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z \\ \\ =\sum_{z_{1}, \cdots, z_{N}} \log P\left(x_{1}, z_{1} | \theta\right) \cdot P\left(z_{1} | x_{1}, \theta^{(t)}\right) \cdot \prod_{i=2}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z \\ \\ =\sum_{z_{1}} \log P\left(x_{1}, z_{1} | \theta\right) \cdot P\left(z_{1} | x_{1}, \theta^{(t)}\right) \cdot \sum_{z_{2}, \cdots, z_{N}} \prod_{i=2}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z \end{array}$ 而：
$\begin{aligned} \sum_{z_{2}, \cdots, z_{N}} \prod_{i=2}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) &=\sum_{z_{2}, \cdots, z_{N}} P\left(z_{2} | x_{2}, \theta^{(t)}\right) \cdot P\left(z_{3} | x_{3}, \theta^{(t)}\right) \cdots P\left(z_{N} | x_{N}, \theta^{(t)}\right) \\ &=\sum_{z_{2}} P\left(z_{2} | x_{2}, \theta^{(t)}\right) \cdot \sum_{z_{3}} P\left(z_{3} | x_{3}, \theta^{(t)}\right) \cdots \sum_{z_{N}} P\left(z_{N} | x_{N}, \theta^{(t)}\right) \\ &=1 \cdot 1 \cdots 1 \\ &=1 \end{aligned}$
所以，
$\sum_{z_{1}, \cdots, z_{N}} \log P\left(x_{1}, z_{1} | \theta\right) \cdot \prod_{i=1}^{N} P\left(z_{i} | x_{i}, \theta^{(t)}\right) d Z=\sum_{z_{1}} \log P\left(x_{1}, z_{1} | \theta\right) \cdot P\left(z_{1} | x_{1}, \theta^{(t)}\right)$
将上面得到的结果，代入到初始的推导式中，我们就可以得到：
$\begin{aligned} Q\left(\theta, \theta^{(t)}\right) &=\sum_{z_{1}} \log P\left(x_{1}, z_{1} | \theta\right) \cdot P\left(z_{1} | x_{1}, \theta^{(t)}\right)+\cdots+\sum_{z_{N}} \log P\left(x_{N}, z_{N} | \theta\right) \cdot P\left(z_{N} | x_{N}, \theta^{(t)}\right) \\ &=\sum_{i=1}^{N} \sum_{Z_{i}} \log P\left(x_{i}, z_{i} | \theta\right) \cdot P\left(z_{i} | x_{i}, \theta^{(t)}\right) \end{aligned}$
那么，下一步我们就是要找到， $\log P\left(x_{i}, z_{i} | \theta\right) 和 P\left(z_{i} | x_{i}, \theta^{(t)}\right)$ 的表达方式了。其中：
$\begin{array}{c} P(X, Z)=P(Z) P(X | Z)=P_{Z} \cdot \mathcal{N}\left(X | \mu_{Z}, \Sigma_{Z}\right) \\ \\ P(Z | X)=\frac{P(X, Z)}{P(X)}=\frac{P_{Z} \cdot \mathcal{N}\left(X | \mu_{Z}, \Sigma_{Z}\right)}{\sum_{i=1}^{K} P_{Z i} \cdot \mathcal{N}\left(X | \mu_{Z i}, \Sigma_{Z i}\right)} \end{array}$ 所以，我们将上式代入，就可以得到：
$Q\left(\theta, \theta^{(t)}\right)=\sum_{i=1}^{N} \sum_{Z_{i}} \log P_{Z_{i}} \cdot \mathcal{N}\left(X | \mu_{Z_{i}}, \Sigma_{Z_{i}}\right) \cdot \frac{P_{Z_{i}}^{\theta(t)} \cdot \mathcal{N}\left(x_{i} | \mu_{Z_{i}}^{\theta(t)}, \Sigma_{Z_{i}}^{\theta(t)}\right)}{\sum_{k=1}^{K} P_{k}^{\theta(t)} \cdot \mathcal{N}\left(x_{i} | \mu_{k}^{\theta(t)}, \Sigma_{k}^{\theta(t)}\right)}$

3.2 M-Step

根据我们在E-Step 中的推导，我们可以得到：
$\begin{aligned} Q\left(\theta, \theta^{(t)}\right) &=\sum_{i=1}^{N} \sum_{Z_{i}} \log P_{Z_{i}} \cdot \mathcal{N}\left(X | \mu_{Z_{i}}, \Sigma_{Z_{i}}\right) \cdot \frac{P_{Z_{i}}^{\theta(t)} \cdot \mathcal{N}\left(x_{i} | \mu_{Z_{i}}^{\theta(t)}, \Sigma_{Z_{i}}^{\theta(t)}\right)}{\underbrace{\sum_{k=1}^{K} P_{k}^{\theta(t)} \cdot \mathcal{N}\left(x_{i} | \mu_{k}^{\theta(t)}, \Sigma_{k}^{\theta(t)}\right)}} \\ &=\sum_{Z_{i}} \sum_{i=1}^{N} \log \left(P_{Z_{i}} \cdot \mathcal{N}\left(X | \mu_{Z_{i}}, \Sigma_{Z_{i}}\right)\right) \cdot P\left(Z_{i} | X_{i}, \theta^{(t)}\right) \\ &=\sum_{k=1}^{K} \sum_{i=1}^{N} \log \left(P_{k} \cdot \mathcal{N}\left(X | \mu_{k}, \Sigma_{k}\right)\right) \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right) \quad\left(Z_{i}=C_{k}\right) \\ &=\sum_{k=1}^{K} \sum_{i=1}^{N}\left(\log P_{k}+\log \mathcal{N}\left(X_{i} | \mu_{k}, \Sigma_{k}\right)\right) \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right) \end{aligned}$ 我们的目的也就是进行不断迭代，从而得出最终的解，用公式表达也就是： $\theta^{(t+1)}=\arg \max _{\theta} Q\left(\theta, \theta^{(t)}\right)$ 我们需要求解的参数也就是: $\theta^{(t+1)}=\left\{P_{1}^{(t+1)}, \cdots, P_{k}^{(t+1)}, \mu_{1}^{(t+1)}, \cdots, \mu_{k}^{(t+1)}, \Sigma_{1}^{(t+1)}, \cdots, \Sigma_{k}^{(t+1)}\right\}$
首先，我们来展示一下怎么求解 $P_{k}^{(t+1)}$ 。

由于在前面的推导结果 $\sum_{k=1}^{K} \sum_{i=1}^{N}\left(\log P_{k}+\log \mathcal{N}\left(X_{i} | \mu_{k}, \Sigma_{k}\right)\right) \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right)$ 中的 $\log \mathcal{N}\left(X_{i} | \mu_{k}, \Sigma_{k}\right)$
部分和 $P_k$ 并没有什么关系。所以，可以被我们直接忽略掉。所以，求解问题，可以被我们描述为M-step：
$\left\{\begin{array}{l} \arg \max _{P_{k}} \sum_{k=1}^{K} \sum_{i=1}^{N} \log P_{k} \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right) \\ \\ \text { s.t. } \quad \sum_{k=1}^{K} P_{k}=1 \end{array}\right.$
使用拉格朗日算子法，我们可以写成：
$\begin{array}{c} \mathcal{L}(P, \lambda)=\sum_{k=1}^{K} \sum_{i=1}^{N} \log P_{k} \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right)+\lambda\left(\sum_{k=1}^{K} P_{k}-1\right) \\ \qquad \begin{aligned} \frac{\partial \mathcal{L}(P, \lambda)}{\partial P_{k}} &=\sum_{i=1}^{N} \frac{1}{P_{k}} \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right)+\lambda=0 \\ & \Rightarrow \sum_{i=1}^{N} P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right)+P_{k} \lambda=0 \end{aligned} \\ \Rightarrow \sum_{i=1}^{N} \underbrace{\sum_{k=1}^{K} P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right)}_{1}+\underbrace{\sum_{k=1}^{K} P_{k} \lambda}_{1}=0 \\ \Rightarrow N+\lambda=0 \end{array}$ 所以，我们可以轻易的得到 $\lambda =- N$ ，所以有 $P_{K}^{(t+1)}=\frac{1}{N} \sum_{i=1}^{N} P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right)$ 那么，我们所有想要求的参数也就是 $P^{(t+1)}=\left(P_{1}^{(t+1)}, P_{2}^{(t+1)}, \cdots, P_{k}^{(t+1)}\right)$ 求解 $P_{k}^{(t+1)}$ 是一个有约束的求最大值问题，由于带约束所以我们要使用拉格朗日乘子法。而且这里使用到了一个track，也就是将从1 到 k，所有的数据集做一个整合，非常的精彩，这样就直接消掉了 $P_k$ 无法计算的问题。而至于 $\theta$ 的其他部分，也就是关于 $\left\{\mu_{1}^{(t+1)}, \cdots, \mu_{k}^{(t+1)}, \Sigma_{1}^{(t+1)}, \cdots, \Sigma_{k}^{(t+1)}\right\}$ 的计算，使用的方法也是一样的.

为什么极大似然估计搞不定的问题，放在EM 算法里面我们就可以搞定了呢？我们来对比一下两
个方法中，需要计算极值的公式。

$\begin{array}{c} \sum_{k=1}^{K} \sum_{i=1}^{N}\left(\log P_{k}+\log \mathcal{N}\left(X_{i} | \mu_{k}, \Sigma_{k}\right)\right) \cdot P\left(Z_{i}=C_{k} | X_{i}, \theta^{(t)}\right) \end{array}$ $\begin{array}{c} \arg \max _{\theta} \sum_{i=1}^{N} \log \sum_{k=1}^{K} P_{k} \cdot \mathcal{N}\left(x_{i} | \mu_{k}, \Sigma_{k}\right) \end{array}$ 极大似然估计一开始计算的就是 $P (X)$ ，而EM 算法中并没有出现有关 $P (X)$ 的计算，而是全程计算都是 $P (X, Z)$ 。而 $P (X)$ 实际上就是 $P (X, Z)$ 的求和形式。所以，每次单独的考虑 $P (X, Z)$ 就避免了在log 函数中出现求和操作。

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/cengjing12/article/details/106535515
————————————————
版权声明：本文为CSDN博主「AI路上的小白」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/cengjing12/article/details/106535515