GMM

(一)定义

K个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类,与KMeans一样,K的值需要提前确定。例如:

随机变量X是由K个高斯分布混合而成,取各个高斯分布的概率为π1π2... πK,第i个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn,试估计参数π,μ,Σ。

(二)算法直观推导

1.建立目标函数--最大对数似然函数--最大似然函数取对数,乘积变加和


PS:由于在对数函数里面又有加和,我们没法直接用求导解方程的办法直接求得极大值。为了解决这个问题,我们分成两步。

2.

1).估算数据来自哪个组份

估计数据由每个组份生成的概率:对于每个样本xi,它由第k个组份生成的概率为:


上式中的μ和Σ也是待估计的值,因此采样迭代法:在计算γ(i,k)时假定μ和Σ已知;

需要先验给定μ和Σ(一开始取经验值)。γ(i,k) 亦可看成组份k在生成数据xi时所做的贡献。(比如说身高数据190cm,90%可能来自男生(人的直观感觉),那么来自组份男的概率90%就可以使用已知的μ和Σ代入其组份k满足的高斯分布算出数据,在做归一化就可以作为其来自组份k的概率)。

 2):估计每个组份的参数

对于所有的样本点,对于组份k而言,可看做生成了 这些点。(PS:求组份男,则只需将样本乘以属于男生的概率得到的数据来算即可)组份k是一个标准的高斯分布,利用高斯分布的极大似然估计求参数的结论:


(三)EM算法推导GMM步骤

(1)隐含变量如下:


因此完全数据对如下:


(2)似然函数为:


其中:


所以对数似然函数如下:


(3)计算Q函数:


其中:


(4)极大化Q函数,求得:





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值