统计学习方法笔记(十三)EM算法(二)

EM算法在高斯混合模型学习中的应用

一、高斯混合模型
1、定义:高斯混合模型是指具有以下形式的概率分布模型:
P(y|θ)=k=1Kαkϕ(y|θk) P ( y | θ ) = ∑ k = 1 K α k ϕ ( y | θ k )
其中, αk α k 是系数,有 k=1Kαk=1,αk0 ∑ k = 1 K α k = 1 , α k ≥ 0 ϕ(y|θk) ϕ ( y | θ k ) 是高斯分布密度, θk=(μk,σ2k) θ k = ( μ k , σ k 2 )
2、EM算法的应用
假设观测数据是由高斯混合模型生成的,我们需要利用EM算法来估计参数 θ θ
(1)明确隐变量,写出完全数据的对数似然函数
我们已知一个观测数据 yi y i 但不知道是由哪个分模型产生的,以隐变量 γjk γ j k 来表示,其定义为:
当第j个观测来自第k个分模型时,隐变量取1,否则取0
所以完全数据的似然函数为:

P(y,γ|θ)=j=1NP(yj,γj1,γj2,,γjk|θ)=k=1Nj=1N[αkϕ(yj|θk)]γjk=k=1Kαnkkj=1N[12πσkexp((yjμk)22σ2k)]γjk P ( y , γ | θ ) = ∏ j = 1 N P ( y j , γ j 1 , γ j 2 , ⋯ , γ j k | θ ) = ∏ k = 1 N ∏ j = 1 N [ α k ϕ ( y j | θ k ) ] γ j k = ∏ k = 1 K α k n k ∏ j = 1 N [ 1 2 π σ k exp ⁡ ( − ( y j − μ k ) 2 2 σ k 2 ) ] γ j k

由此可以求出完全似然函数。
(2)确定Q函数
Q(θ,θ(i))=E[logP(y,γ|θ)|y,θ(i)] Q ( θ , θ ( i ) ) = E [ log ⁡ P ( y , γ | θ ) | y , θ ( i ) ]
(3)求极大值
经过一系列的推导,具体可以参考《统计学习方法》第163,最终总结如下:
E步:计算分模型对观测数据的响应度:
γˆjk=αkϕ(yj|θk)k=1Kαkϕ(yj|θk) γ ^ j k = α k ϕ ( y j | θ k ) ∏ k = 1 K α k ϕ ( y j | θ k )
M步:计算迭代参数:
μˆk=j=1Nγˆjkyjj=1Nγˆjk μ ^ k = ∑ j = 1 N γ ^ j k y j ∑ j = 1 N γ ^ j k
σˆ2k=j=1Nγˆjk(yjμk)2j=1Nγˆjk σ ^ k 2 = ∑ j = 1 N γ ^ j k ( y j − μ k ) 2 ∑ j = 1 N γ ^ j k
αˆk=j=1NγˆjkN α ^ k = ∑ j = 1 N γ ^ j k N
重复迭代,直至收敛

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值