机器学习算法笔记：GMM高斯混合模型

最新推荐文章于 2024-01-21 22:52:26 发布

xiaochengJF

最新推荐文章于 2024-01-21 22:52:26 发布

阅读量334

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43711554/article/details/105605905

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

高斯混合模型

为了解决高斯模型的单峰性的问题，引入多个高斯模型的加权平均来拟合多峰数据：
$p(x)=\sum\limits_{k=1}^K\alpha_k\mathcal{N}(\mu_k,\Sigma_k)$

引入隐变量 $z$ ，表示对应样本 $x$ 属于哪一个高斯分布，该变量为离散随机变量：

Z	$C_1$	$C_2$	$\cdots$	$C_K$
P	$p_1$	$p_2$		$p_K$

$p(z=i)=p_i,\sum\limits_{i=1}^Kp(z=i)=1$

高斯混合模型是生成式模型，通过隐变量 $z$ 的分布来生成样本，概率图表示如下：

$x$ 就是 $z$ 生成的高斯分布样本，样本 $x_1,z_1)$ $x_2,z_2)$ $\cdots$ $x_K,z_K)$ 相互独立的，对于 $p (X)$ ： $p(X)=\sum\limits_zp(X,z)=\sum\limits_{k=1}^Kp(X,z=k)=\sum\limits_{k=1}^Kp(z=k)p(X|z=k)$ 因此： $p(X)=\sum\limits_{k=1}^Kp_k\mathcal{N}(X |\mu_k,\Sigma_k)$

极大似然估计

观测样本： $X=(x_1,x_2,\cdots,x_N)$
模型参数： $\theta=\{p_1,p_2,\cdots,p_K,\mu_1,\mu_2,\cdots,\mu_K,\Sigma_1,\Sigma_2,\cdots,\Sigma_K\}$

完全样本应该是： $(X, Z)$ ，用极大似然估计参数 $\theta$ ：
$\begin{aligned} \theta_{MLE}&=\mathop{argmax}\limits_{\theta}\log {\color{blue}p(X)}=\mathop{argmax}\limits_{\theta}\log \underbrace{\color{blue}\prod\limits_{i=1}^Np(x_i)}_{\color{blue}\text{样本相互独立}}\\ &=\mathop{argmax}\limits_{\theta}\sum\limits_{i=1}^N\log p(x_i)\\ &=\mathop{argmax}\limits_\theta\sum\limits_{i=1}^N\log \sum\limits_{k=1}^Kp_k\mathcal{N}(x_i|\mu_k,\Sigma_k) \end{aligned}$

上式无法直接通过求导得到解析解，可以使用 EM 算法进行迭代求解。

EM 求解 GMM

EM 算法的迭代公式为： $\theta^{t+1}=\mathop{argmax}\limits_{\theta}\underbrace{\mathbb{E}_{z|x,\theta_t}[p(x,z|\theta)]}_{\color{blue}Q(\theta,\theta^t)}$

将 GMM 表达式代入得到：
$\begin{aligned} Q(\theta,\theta^t)&=\sum\limits_z[\log\prod\limits_{i=1}^Np(x_i,z_i|\theta)]\prod \limits_{i=1}^Np(z_i|x_i,\theta^t)\\ &=\sum\limits_z[\sum\limits_{i=1}^N\log p(x_i,z_i|\theta)]\prod \limits_{i=1}^Np(z_i|x_i,\theta^t) \\ &=\sum\limits_z\underbrace{[{\color{blue}\log p(x_1,z_1|\theta)}+\cdots+\log p(x_N,z_N|\theta)]}_{\color{blue}\sum\limits_{i=1}^N\log p(x_i,z_i|\theta)}\prod \limits_{i=1}^Np(z_i|x_i,\theta^t) \end{aligned}$

将上式第二个求和符号展开，并取出第一项观察其规律：
$\begin{aligned} & \sum\limits_z\log p(x_1,z_1|\theta)\prod\limits_{i=1}^Np(z_i|x_i,\theta^t)\\ &=\sum\limits_z\log p(x_1,z_1|\theta)p(z_1|x_1,\theta^t)\prod\limits_{i=2}^Np(z_i|x_i,\theta^t)\\ &=\sum\limits_{z_1}\log p(x_1,z_1|\theta) p(z_1|x_1,\theta^t)\sum\limits_{z_2,\cdots,z_N}\prod\limits_{i=2}^Np(z_i|x_i,\theta^t)\\ &=\sum\limits_{z_1}\log p(x_1,z_1|\theta) p(z_1|x_1,\theta^t) \underbrace{\sum\limits_{z_2}p(z_2|x_2,\theta^t)}_{\color{blue}1}\cdots \underbrace{\sum\limits_{z_N}p(z_N|x_N,\theta^t)}_{\color{blue}1} \\ &=\sum\limits_{z_1}\log p(x_1,z_1|\theta)p(z_1|x_1,\theta^t) \end{aligned}$

则 $Q$ 可以写成以下形式：
${\color{blue}Q(\theta,\theta^t)}=\sum\limits_{i=1}^N\sum\limits_{\color{blue}z_i}\log p(x_i,z_i|\theta)p(z_i|x_i,\theta^t)$

其中 $p(x,z|\theta)$ ：
$p(x,z|\theta)=p(z|\theta)p(x|z,\theta)=p_z\mathcal{N}(x|\mu_z,\Sigma_z)$

其中 $p(z|x,\theta^t)$ ：
$p(z|x,\theta^t)=\frac{p(x,z|\theta^t)}{p(x|\theta^t)}=\frac{p_z^t\mathcal{N}(x|\mu_z^t,\Sigma_z^t)}{\sum\limits_kp_k^t\mathcal{N}(x|\mu_k^t,\Sigma_k^t)}$

$\color{blue}E-step$ 求期望 $\mathbb{E}_{z|x,\theta_t}$ ， $p(z|x,\theta^t)$ 是上一次迭代的结果。将上式代入 $Q$ 中得到：
$Q=\sum\limits_{i=1}^N\sum\limits_{z_i}\log p_{z_i}\mathcal{N(x_i|\mu_{z_i},\Sigma_{z_i})}\underbrace{\frac{p_{z_i}^t\mathcal{N}(x_i|\mu_{z_i}^t,\Sigma_{z_i}^t)}{\sum\limits_kp_k^t\mathcal{N}(x_i|\mu_k^t,\Sigma_k^t)}}_{\color{blue}\text{第$t$步中确定的常数项}}$

$\color{blue}M-step$ 最大化 $Q$ 求模型参数 $\color{blue}\mu^{t+1}_k,\ \Sigma^{t+1}_k,\color{blue}p_k^{t+1}$ ：

$\begin{aligned} Q&=\sum\limits_{i=1}^N\sum\limits_{\color{blue}z_i}\log p_{z_i}\mathcal{N(x_i|\mu_{z_i},\Sigma_{z_i})}p(z_i|x_i,\theta^t)\\ &=\sum\limits_{\color{blue}z_i}\sum\limits_{i=1}^N\log p_{z_i}\mathcal{N(x_i|\mu_{z_i},\Sigma_{z_i})}p(z_i|x_i,\theta^t)\\ &=\sum\limits_{\color{blue}k=1}^{\color{blue}K}\sum\limits_{i=1}^N[\log p_k+\log \mathcal{N}(x_i|\mu_k,\Sigma_k)]p(z_i=C_k|x_i,\theta^t) \end{aligned}$

先求参数 $\color{blue}\boxed{p_k^{t+1}}$ ，取出式中 $p_k$ 相关项：
$\left\{\begin{aligned} &p_k^{t+1}=\mathop{argmax}\limits_{p_k}\sum\limits_{k=1}^K\sum\limits_{i=1}^N\log p_kp(z_i=C_k|x_i,\theta^t)\\ &s.t.\ \sum\limits_{k=1}^Kp_k=1 \end{aligned}\right.$

引入 Lagrange 乘子：
$\begin{aligned} L(p_k,\lambda)=\sum\limits_{k=1}^K\sum\limits_{i=1}^N\log p_kp(z_i=C_k|x_i,\theta^t)-\lambda(1-\sum\limits_{k=1}^Kp_k) \end{aligned}$

所以：
$\begin{aligned} &\frac{\partial}{\partial p_k}L=\sum\limits_{i=1}^N\frac{1}{p_k}p(z_i=C_k|x_i,\theta^t)+\lambda=0\\ &\Longrightarrow \sum\limits_k\sum\limits_{i=1}^N\frac{1}{p_k}p(z_i=C_k|x_i,\theta^t)+\lambda\sum\limits_kp_k=0\\ &\Longrightarrow\lambda=-N \end{aligned}$

于是有：
${\color{blue}p_k^{t+1}}=\frac{1}{N}\sum\limits_{i=1}^Np(z_i=C_k|x_i,\theta^t)$

参数 $\color{blue}\mu^{t+1}_k,\ \Sigma^{t+1}_k$ 是无约束的，直接求偏导即可。

参考文献

【1】高斯混合模型
【2】手把手教你实现一个高斯混合模型
【3】详解EM算法与混合高斯模型(Gaussian mixture model, GMM)

xiaochengJF

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法笔记：GMM高斯混合模型

高斯混合模型为了解决高斯模型的单峰性的问题，我们引入多个高斯模型的加权平均来拟合多峰数据： p(x)=∑k=1KαkN(μk,Σk) p(x)=\sum\limits_{k=1}^K\alpha_k\mathcal{N}(\mu_k,\Sigma_k) p(x)=k=1∑KαkN(μk,Σk) 引入隐变量 zzz，这个变量表示对应的样本 xxx 属于哪一个高斯分布，这个变量是一个离散的随...
复制链接

扫一扫

专栏目录