一、概念解释:
先验概率:在有一定量数据的前提下,我们对参数进行概率估计,事件发生前的预判概率。
极大似然估计:找到一组参数使得我们观测到的数据出现的概率最大。
后验概率:在最合适的那个参数的前提下,观测数据出现的最大概率。
条件概率:。
高斯分布:,概率密度函数
。
高斯混合模型(GMM):高斯混合模型是一种混合模型,混合的基本分布是高斯分布,假设有随机变量x,则高斯混合模型可以表示为:,其中高斯分布
称为高斯混合模型的第k个分量(component),
相当于每个分量
的权重且满足
。
密度估计:根据数据来推断概率密度通常被称作密度估计(density estimation)。
参数估计:已知概率密度函数的形式,而要估计其中的参数的过程。
二、GMM理论
GMM常用于聚类,如果要从一个GMM的分布中随机取一个点的话,实际上可以分为两步:
1. 随机在K个分量中选一个,每个分量实际被选到的概率就是它的权重,即。
2. 选中分量之后,单独再这个分两种考虑所选点的概率,此时转化为普通的高斯分布问题。
当确定高斯混合分布的分量个数即K时,之后要做的就是参数估计的过程。假设有N个数据点,我们需要确定的参数有、
、