统计学习方法——EM算法及其推广（二）

最新推荐文章于 2022-07-07 16:31:37 发布

你的名字5686

最新推荐文章于 2022-07-07 16:31:37 发布

阅读量237

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/89286838

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

统计学习方法——EM算法及其推广

EM算法及其推广（二）

EM算法及其推广（二）

EM算法在高斯混合模型学习中的应用

高斯混合模型

高斯混合模型是指具有如下形式的概率分布模型：
$P\left( {y\left| \theta \right.} \right) = \sum\limits_{k = 1}^K {{\alpha _k}\phi \left( {y\left| {{\theta _k}} \right.} \right)}$
其中， ${{\alpha _k}}>0$ 是系数， $\sum\limits_{k = 1}^K {{\alpha _k}} = 1$ ， ${\phi \left( {y\left| {{\theta _k}} \right.} \right)}$ 是高斯分布密度， ${\theta _k} = \left( {\mu ,\sigma _k^2} \right)$ ，
$\phi \left( {y\left| {{\theta _k}} \right.} \right) = \frac{1}{{\sqrt {2\pi } {\sigma _k}}}\exp \left( { - \frac{{{{\left( {y - {\mu _k}} \right)}^2}}}{{2\sigma _k^2}}} \right)$
称为第 $k$ 个分模型。
一般混合模型可以由任意概率分布密度替代高斯分布密度。

高斯混合模型参数估计的EM算法

理论
假设观察数据 ${y_1},{y_2}, \cdots ,{y_N}$ 由高斯混合模型生成，
$P\left( {y\left| \theta \right.} \right) = \sum\limits_{k = 1}^K {{\alpha _k}\phi \left( {y\left| {{\theta _k}} \right.} \right)}$
其中 $\theta = \left( {{\alpha _1},{\alpha _2}, \cdots ,{\alpha _K};{\theta _1},{\theta _2}, \cdots ,{\theta _K}} \right)$ ，用EM算法估计高斯混合模型的参数 $\theta$ 。
- 明确隐变量，写出完全数据的对数似然函数
  设想观测数据 $y_j，j=1,2,\cdots,N$ 是这样产生的：首先依概率 $\alpha_k$ 选择第 $k$ 个高斯分布分模型 ${\phi \left( {y\left| {{\theta _k}} \right.} \right)}$ ；然后依照第 $k$ 个分模型的概率分布 ${\phi \left( {y\left| {{\theta _k}} \right.} \right)}$ 生成观测数据 $y_j$ ，这时观测 $y_j$ 是已知的。反映观测数据 $y_j$ 来自第 $k$ 个分模型的数据是未知的， $k=1,2,\cdots,K$ ，以隐变量 ${\gamma _{jk}}$ 表示，定义如下：
  ${\gamma _{jk}} = \left\{ \begin{array}{l} 1,第j个观测来自第k个分模型\\ 0,否则 \end{array} \right.$
  $j=1,2,\cdots,N；k=1,2,\cdots,K$
  有了观测数据 $y_j$ 和未观测数据 $\gamma_{jk}$ ，那么完全数据为：
  $\left( {{y_j},{\gamma _{j1}},{\gamma _{j2}}, \cdots ,{\gamma _{jK}}} \right),j = 1,2, \cdots ,N$
  于是写出完全数据的似然函数：
  $P\left( {y,\gamma \left| \theta \right.} \right) = \prod\limits_{j = 1}^N {P\left( {{y_j},{\gamma _{j1}},{\gamma _{j2}}, \cdots ,{\gamma _{jK}}\left| \theta \right.} \right)} = \prod\limits_{k = 1}^K {\alpha _k^{{n_k}}} {\prod\limits_{j = 1}^N {\left[ {\frac{1}{{\sqrt {2\pi } {\sigma _k}}}\exp \left( { - \frac{{{{\left( {{y_j} - {\mu _k}} \right)}^2}}}{{2\sigma _k^2}}} \right)} \right]} ^{{\gamma _{jk}}}}$
  式中 ${n_k} = \sum\limits_{j = 1}^N {{\gamma _{jk}}} ,N = \sum\limits_{k = 1}^K {{n_k}}$
  完全数据的对数似然函数为：
  $\log P\left( {y,\gamma \left| \theta \right.} \right) = \sum\limits_{k = 1}^K {{n_k}\log {\alpha _k}} + \sum\limits_{j = 1}^N {{\gamma _{jk}}\left[ {\log \left( {\frac{1}{{\sqrt {2\pi } }}} \right) - \log {\sigma _k} - \frac{1}{{2\sigma _k^2}}{{\left( {{y_j} - {\mu _k}} \right)}^2}} \right]}$
- E步：确定 $Q$ 函数
  $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = E\left[ {\log P\left( {y,\gamma \left| \theta \right.} \right)\left| y \right.,{\theta ^{\left( i \right)}}} \right] = \sum\limits_{k = 1}^K {\left\{ {\sum\limits_{j = 1}^N {\left( {E{\gamma _{jk}}} \right)\log {\alpha _k}} + \sum\limits_{j = 1}^N {\left( {E{\gamma _{jk}}} \right)\left[ {\log \left( {\frac{1}{{\sqrt {2\pi } }}} \right) - \log {\sigma _k} - \frac{1}{{2\sigma _k^2}}{{\left( {{y_j} - {\mu _k}} \right)}^2}} \right]} } \right\}}$
  需要计算 $E\left( {{\gamma _{jk}}\left| {y,\theta } \right.} \right)$ ，记为 ${{\hat \gamma }_{jk}}$ ：
  ${{\hat \gamma }_{jk}} = E\left( {{\gamma _{jk}}\left| {y,\theta } \right.} \right) = \frac{{{\alpha _k}\phi \left( {{y_j}\left| {{\theta _k}} \right.} \right)}}{{\sum\limits_{k = 1}^K {{\alpha _k}\phi \left( {{y_j}\left| {{\theta _k}} \right.} \right)} }},j = 1,2, \cdots ,N;k = 1,2, \cdots ,K$
  带入后得到：
  $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = \sum\limits_{k = 1}^K {{n_k}\log {\alpha _k}} + \sum\limits_{k = 1}^N {{{\hat \gamma }_{jk}}} \left[ {\log \left( {\frac{1}{{\sqrt {2\pi } }}} \right) - \log {\sigma _k} - \frac{1}{{2\sigma _k^2}}{{\left( {{y_j} - {\mu _k}} \right)}^2}} \right]$
- 确定M步
  迭代的 $M$ 步是求函数 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 对 $\theta$ 的极大值，即求新一轮迭代的模型参数：
  ${\theta ^{\left( {i + 1} \right)}} = \arg \mathop {\max }\limits_\theta Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$
  用 ${{\hat \mu }_k},\hat \sigma _k^2,{{\hat \alpha }_k},k = 1,2, \cdots ,K$ 表示 $\theta ^{\left( {i + 1} \right)}$ 的各个参数：
  ${{\hat \mu }_k} = \frac{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}{y_j}} }}{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}} }},k = 1,2, \cdots ,K$
  $\hat \sigma _k^2 = \frac{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}{{\left( {{y_j} - {\mu _k}} \right)}^2}} }}{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}} }},k = 1,2, \cdots ,K$
  ${{\hat \alpha }_k} = \frac{{{n_k}}}{N} = \frac{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}} }}{N},k = 1,2, \cdots ,K$
算法
- 输入：观测数据 $y_1,y_2,\cdots,y_N$ ，高斯混合模型
- 输出：高斯混合模型参数
- 流程
  - 取参数的初始值开始迭代
  - E步：依据当前模型参数，计算分模型 $k$ 对观测数据 $y_j$ 的响应度
    ${{\hat \gamma }_{jk}} = E\left( {{\gamma _{jk}}\left| {y,\theta } \right.} \right) = \frac{{{\alpha _k}\phi \left( {{y_j}\left| {{\theta _k}} \right.} \right)}}{{\sum\limits_{k = 1}^K {{\alpha _k}\phi \left( {{y_j}\left| {{\theta _k}} \right.} \right)} }},j = 1,2, \cdots ,N;k = 1,2, \cdots ,K$
  - M步：计算新一轮迭代的模型参数
    ${{\hat \mu }_k} = \frac{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}{y_j}} }}{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}} }},k = 1,2, \cdots ,K$
    $\hat \sigma _k^2 = \frac{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}{{\left( {{y_j} - {\mu _k}} \right)}^2}} }}{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}} }},k = 1,2, \cdots ,K$
    ${{\hat \alpha }_k} = \frac{{{n_k}}}{N} = \frac{{\sum\limits_{j = 1}^N {{{\hat \gamma }_{jk}}} }}{N},k = 1,2, \cdots ,K$
  - 重复上两步直到收敛。

EM算法的推广

EM算法还可以解释为 $F$ 函数的极大-极大算法，基于这个解释有若干变形与推广。

F函数的极大-极大算法

F函数
假设隐变量数据 $Z$ 的概率分布为 $\tilde P\left( Z \right)$ ，定义分布 $\tilde P$ 与参数 $\theta$ 的函数 $F\left( {\tilde P,\theta } \right)$ 如下：
$F\left( {\tilde P,\theta } \right) = {E_{\tilde P}}\left[ {\log P\left( {Y,Z\left| \theta \right.} \right)} \right] + H\left( {\tilde P} \right)$
称为 $F$ 函数，式中 $H\left( {\tilde P} \right) = - {E_{\tilde P}}\log \tilde P\left( Z \right)$ 是分布 $\tilde P\left( Z \right)$ 的熵。
引理
- 对于固定的 $\theta$ ，存在唯一的分布 $\tilde P_{\theta}$ 极大化 $F\left( {\tilde P,\theta } \right)$ ，这时 $\tilde P_{\theta}$ 由下式给出：
  ${\tilde P_\theta }\left( Z \right) = P\left( {Z\left| {Y,\theta } \right.} \right)$
  并且 $\tilde P_{\theta}$ 随 $\theta$ 连续变化。
- 若 ${\tilde P_\theta }\left( Z \right) = P\left( {Z\left| {Y,\theta } \right.} \right)$ ，则
  $F\left( {\tilde P,\theta } \right) = \log P\left( {Y\left| \theta \right.} \right)$
定理
- 设 $L\left( \theta \right) = \log P\left( {Y\left| \theta \right.} \right)$ 为观测数据的对数似然函数， ${\theta ^{\left( i \right)}},i = 1,2 \cdots$ 为EM算法得到的参数估计序列，函数 $F\left( {\tilde P,\theta } \right)$ 由定义给出。如果 $F\left( {\tilde P,\theta } \right)$ 在 $\tilde P^*$ 和 $\theta^*$ 有局部极大值，那么 $L\left( \theta \right)$ 也在 $\theta^*$ 有局部最大值。类似地，如果 $F\left( {\tilde P,\theta } \right)$ 在 $\tilde P^*$ 和 $\theta^*$ 达到全局最大值，那么 $L\left( \theta \right)$ 也在 $\theta^*$ 达到全局最大值。
- EM算法的一次迭代可由 $F$ 函数的极大-极大算法实现
  设 $\theta^{\left(i\right)}$ 为第 $i$ 次迭代参数 $\theta$ 的估计， ${\tilde P^{\left(i\right)}}$ 为第 $i$ 次迭代函数 ${\tilde P }$ 的估计，在第 $i + 1$ 次迭代的两步为：
  - 对固定的 $\theta^{\left(i\right)}$ ，求 ${\tilde P^{\left(i+1\right)}}$ 使 $F\left( {\tilde P,\theta^{\left(i\right)} } \right)$ 极大化；
  - 对固定的 ${\tilde P^{\left(i+1\right)}}$ ，求 $\theta^{\left(i+1\right)}$ 使 $F\left( {\tilde P^{\left(i+1\right)},\theta} \right)$ 极大化；

GEM算法

算法一

输入：观测数据， $F$ 函数
输出：模型参数
流程：
- 初始化参数 $\theta^{\left(0\right)}$ ，开始迭代
- 第 $i + 1$ 次迭代：
  - 记 $\theta^{\left(i\right)}$ 为参数 $\theta$ 的估计值， $\tilde P^{\left(i\right)}$ 为参数 $\tilde P$ 的估计，求 $\tilde P^{\left(i+1\right)}$ 使 $\tilde P$ 极大化 $F\left(\tilde P,\theta^{\left(i\right)}\right)$
  - 求 $\theta^{\left(i+1\right)}$ ，使得 $F\left(\tilde P^{\left(i+1\right)},\theta\right)$ 极大化
- 重复上一步直到收敛

求解 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 的极大化是困难的。

算法二

输入：观测函数， $Q$ 函数
输出：模型参数
流程：
- 初始化参数 $\theta^{\left(0\right)}$ ，开始迭代
- 第 $i + 1$ 次迭代：
  - 记 $\theta^{\left(i\right)}$ 为参数 $\theta$ 的估计值，计算：
    $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = {E_Z}\left[ {\log P\left( {Y,Z\left| \theta \right.} \right)\left| Y \right.,{\theta ^{\left( i \right)}}} \right] = \sum\limits_Z {P\left( {Z\left| {Y,{\theta ^{\left( i \right)}}} \right.} \right)\log P\left( {Y,Z\left| \theta \right.} \right)}$
  - 求 $\theta^{\left(i+1\right)}$ ，使得
    $Q\left( {{\theta ^{\left( {i + 1} \right)}},{\theta ^{\left( i \right)}}} \right) > Q\left( {{\theta ^{\left( i \right)}},{\theta ^{\left( i \right)}}} \right)$
- 重复上一步骤直至收敛。

当参数 $\theta$ 的维数为 $d\left( {d \ge 2} \right)$ 时，可采用特殊的GEM算法。

算法三

输入：观测函数， $Q$ 函数
输出：模型参数
流程：
- 初始化参数 ${\theta ^{\left( 0 \right)}} = \left( {\theta _1^{\left( 0 \right)},\theta _2^{\left( 0 \right)}, \cdots ,\theta _d^{\left( 0 \right)}} \right)$ ，开始迭代
- 第 $i + 1$ 次迭代：
  - 记 ${\theta ^{\left( i \right)}} = \left( {\theta _1^{\left( i \right)},\theta _2^{\left( i \right)}, \cdots ,\theta _d^{\left( i \right)}} \right)$ 为参数 $\theta = \left( {{\theta _1},{\theta _2}, \cdots ,{\theta _d}} \right)$ 的估计值，计算
    $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right) = {E_Z}\left[ {\log P\left( {Y,Z\left| \theta \right.} \right)\left| Y \right.,{\theta ^{\left( i \right)}}} \right] = \sum\limits_Z {P\left( {Z\left| {Y,{\theta ^{\left( i \right)}}} \right.} \right)\log P\left( {Y,Z\left| \theta \right.} \right)}$
  - 进行 $d$ 次条件极大化
    - 在 $\theta _2^{\left( i \right)}, \cdots ,\theta _d^{\left( i \right)}$ 保持不变的条件下使 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 达到极大的 $\theta _1^{\left( i+1 \right)}$
    - 在 ${\theta _1} = \theta _1^{\left( {i + 1} \right)},{\theta _j} = \theta _j^{\left( i \right)},j = 3,4, \cdots ,k$ 的条件下求使 $Q\left( {\theta ,{\theta ^{\left( i \right)}}} \right)$ 达到极大的 $\theta _2^{\left( i+1 \right)}$
    - 如此经过 $k$ 次，得到 $\theta^{\left(i+1\right)}$ ，使得
      $Q\left( {{\theta ^{\left( {i + 1} \right)}},{\theta ^{\left( i \right)}}} \right) > Q\left( {{\theta ^{\left( i \right)}},{\theta ^{\left( i \right)}}} \right)$
- 重复上一步直到收敛。