贝叶斯变分GMM学习笔记

最新推荐文章于 2024-09-24 14:47:04 发布

zhaoxinhust

最新推荐文章于 2024-09-24 14:47:04 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhaoxin19900720/article/details/103734891

版权

本文介绍了贝叶斯变分GMM模型解决传统GMM模型中高斯模型数量选择的问题。通过假设狄利克雷分布和高斯-Wishart分布，经过初始化、E步和M步来估计参数。在E步中计算责任值，M步更新参数。贝叶斯变分方法简化了K的选择并优化模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在传统GMM模型中，高斯模型数量K是一个超参数，如何选取此参数会直接影响着模型训练的结果。当K过大时，出现某些高斯模型方差大的问题，而当K选取过小时，则容易出现奇异。对此，一般的做法是通过交叉验证技术依据不同的信息指标，如BIC等进行选取，中间计算量大，过程复杂。而在贝叶斯变分方法中则很好的解决了这个问题。

在贝叶斯高斯混合模型中，对先验概率进行假设变分。

首先假设系数项符合狄利克雷分布：
$p(\boldsymbol{\pi})=\operatorname{Dir}\left(\boldsymbol{\pi} | \boldsymbol{\alpha}_{0}\right)=C\left(\boldsymbol{\alpha}_{0}\right) \prod_{k=1}^{K} \pi_{k}^{\alpha_{0}-1}$
其中， $\boldsymbol{\alpha}_{0}$ 为分布的参数，它表示此混合分布在选择分量时的集中程度。 $C\left(\boldsymbol{\alpha}_{0}\right)$ 为分布归一化系数。

假设均值和精度矩阵符合高斯-Wishart分布：
$\begin{aligned} p(\boldsymbol{\mu}, \boldsymbol{\Lambda}) =p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) p(\boldsymbol{\Lambda}) =\prod_{k=1}^{K} \mathcal{N}\left(\boldsymbol{\mu}_{k} | \mathbf{m}_{0},\left(\beta_{0} \boldsymbol{\Lambda}_{k}\right)^{-1}\right) \mathcal{W}\left(\boldsymbol{\Lambda}_{k} | \mathbf{W}_{0}, \nu_{0}\right) \end{aligned}$
即，精度矩阵分布为Wishart分布，而均值的分布依赖精度矩阵的分布。