前提: EM算法需要两个东西,其解决方法就是先随机初始化 θ A \theta_{A} θA, θ B \theta_{B} θB, 然后用去估计 Z, 然后基于 Z 按照最大似然概率去估计新的 θ A \theta_{A} θA, θ B \theta_{B} θB,循环至收敛。
琴声不等式:
Φ
\Phi
Φ 是凸函数,那么对内部元素求和之后取
Φ
\Phi
Φ小于先取
Φ
\Phi
Φ再求和
EM核心idea就是 通过 引入Q(zi) ,然后使用Jensen 不等式(将
l
o
g
∑
log \sum
log∑ —>
∑
l
o
g
\sum log
∑log 形式,便于求导计算),并 推出 非完全数据似然logP(Y)的下界函数J(Z,
θ
\theta
θ)。
下界函数J(Z, θ \theta θ),它是由Q(zi) 和 \theta组成二元函数。同时优化Q(zi) 和 \theta很困难,那么就分开优化。E步优化Q(zi) ,而M步优化\theta。
E步:引入Q(zi)分布时,Q(zi)的形式是个谜团,那如何选择合适的Q呢?答案就是在E步。E步目的是使得Jensen 等号成立。此时,Jensen 不等式 等号成立的条件就是
Q
(
z
i
)
=
P
(
z
i
∣
y
i
;
θ
)
Q(z_i) = P(z_i|y_i; \theta)
Q(zi)=P(zi∣yi;θ)。而
P
(
z
i
∣
y
i
;
θ
)
P(z_i|yi; \theta)
P(zi∣yi;θ)形式很巧妙,就是先验P(z)在given
y
i
数
据
和
上
一
步
参
数
θ
y_i数据和上一步参数\theta
yi数据和上一步参数θ下后验。
M步:在Q(zi) =
P
(
z
i
∣
y
i
P(z_{i}|y_{i}
P(zi∣yi;
θ
\theta
θ)时,问题退化到了最大似然估计。然后,使用求导=0,将模型的
θ
\theta
θ更新