EM算法之求解三硬币模型

最新推荐文章于 2024-07-23 20:30:00 发布

维格堂406小队

最新推荐文章于 2024-07-23 20:30:00 发布

阅读量7.5k

点赞数 15

分类专栏： ★★★机器学习 # ★★分类&回归

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79005461

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★分类&回归

23 篇文章 0 订阅

订阅专栏

看了好几天的EM算法，还是看的一头雾水。借由三硬币模型，尝试使用EM算法。

1、EM算法流程

1. E步：对完全数据的对数似然函数 $log (P(Y,Z|\theta ))$ 求关于 $P(Z|Y,{\theta ^{(i)}})$ 的数学期望。
${E_{Z|Y,{\theta ^{(i)}}}}[\log (P(Y,Z|\theta ))]$
其中 $\theta ^{(i)}$ 是第i次迭代时， $\theta$ 的估计值
2. M步：对E步的结果求极值

2、案例：三硬币模型

假设有3枚硬币，分别记作A,B,C。这些硬币正面出现的概率分别是 $\pi ,p,q$ ,进行如下掷硬币实验：先掷硬币A，根据其结果选出硬币B或C，正面选B，反面选C，然后掷选出的硬币，掷硬币的结果，出现正面记作1，反面记作0；独立重复 $n$ 次实验，观测记为 $Y={y_1,y_2,...,y_n}$ 。

3、EM算法求解

3.1)符号标记:

$y_j$ 为第 $j$ 次实验的观测
$Z$ 为隐变量，表示掷硬币A出现的结果。该变量只有两个取值0,1
$z_j$ 为第 $j$ 次实验时，掷硬币A出现的结果，同样的， $z_j=1$ 表示硬币A掷出正面
$\theta$ 表示参数集合 ${\pi,p,q}$
$\theta ^{(i)}$ 为第 $i$ 次迭代时， ${\pi,p,q}$ 的估计值

3.2)E-Step

完全数据的对数似然函数为：

log (P (Y, Z | θ)) = log (\prod j = 1 n p (y j, z j | θ)) = \sum j = 1 n log (p (y j, z j | θ))

$\begin{array}{l} \log (P(Y,Z|\theta )) = \log (\prod\limits_{j = 1}^n {p({y_j},{z_j}|\theta )} )\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sum\limits_{j = 1}^n {\log (p({y_j},{z_j}|\theta ))} \end{array}$
期望为：

E Z | Y, θ (i) [log (P (Y, Z | θ))] = \sum j = 1 n \sum z j [p (z j | y j, θ (i)) log (p (y j, z j | θ))] = \sum j = 1 n \sum z j [p (z j | y j, θ (i)) log (p (y j, z j | θ))] = \sum j = 1 n {[p (z j = 1 | y j, θ (i)) log (p (y j, z j = 1 | θ))] + [p (z j = 0 | y j, θ (i)) log (p (y j, z j = 0 | θ))]}

$\begin{array}{l} {E_{Z|Y,{\theta ^{(i)}}}}[\log (P(Y,Z|\theta ))]\\ = \sum\limits_{j = 1}^n {\sum\limits_{{z_j}} {[p({z_j}|{y_j},{\theta ^{(i)}})} \log (p({y_j},{z_j}|\theta ))} ]\\ = \sum\limits_{j = 1}^n {\sum\limits_{{z_j}} {[p({z_j}|{y_j},{\theta ^{(i)}})} \log (p({y_j},{z_j}|\theta ))} ]\\ = \sum\limits_{j = 1}^n {\left\{ \begin{array}{l} [p({z_j} = 1|{y_j},{\theta ^{(i)}})\log (p({y_j},{z_j=1}|\theta ))]\\ + [p({z_j} = 0|{y_j},{\theta ^{(i)}})\log (p({y_j},{z_j=0}|\theta ))] \end{array} \right\}} \end{array}$

对于后验概率 ${p({z_j}|{y_j},{\theta ^{(i)}})}$ ，此时 $\theta ^{(i)}$ 为一个定值，对后验概率本身可以直接计算，所以可以不考虑。(不知道这样解释合不合理)

μ (i + 1) j = p (z j = 1 | y j; θ (i)) = p ( y j , z j = 1 ) p ( y j ) = p ( y j | z j = 1 ) p ( z j = 1 ) \sum z j p ( y j , z j ) = p ( y j | z j = 1 ) p ( z j = 1 ) p ( y j , z j = 1 ) + p ( y j , z j = 0 ) = ( p ( i ) ) y j ( 1 - p ( i ) ) 1 - y j * π ( i ) ( p ( i ) ) y j ( 1 - p ( i ) ) 1 - y j * π ( i ) + ( q ( i ) ) y j ( 1 - q ( i ) ) 1 - y j * ( 1 - π ( i ) )

$\begin{array}{l} \mu _j^{\left( {i + 1} \right)} = p({z_j} = 1|{y_j};{\theta ^{(i)}})\\ = \frac{{p({y_j},{z_j} = 1)}}{{p({y_j})}} = \frac{{p({y_j}|{z_j} = 1)p({z_j} = 1)}}{{\sum\limits_{{z_j}} {p({y_j},{z_j})} }}\\ = \frac{{p({y_j}|{z_j} = 1)p({z_j} = 1)}}{{p({y_j},{z_j} = 1) + p({y_j},{z_j} = 0)}}\\ = \frac{{{{\left( {{p^{(i)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{(i)}}} \right)}^{1 - {y_j}}}*{\pi ^{(i)}}}}{{{{\left( {{p^{(i)}}} \right)}^{{y_j}}}{{\left( {1 - {p^{(i)}}} \right)}^{1 - {y_j}}}*{\pi ^{(i)}} + {{\left( {{q^{(i)}}} \right)}^{{y_j}}}{{\left( {1 - {q^{(i)}}} \right)}^{1 - {y_j}}}*\left( {1 - {\pi ^{(i)}}} \right)}} \end{array}$

对于联合概率 ${p({z_j},{y_j}|\theta )}$ :

p (y j, z j = 1 | θ) = p (y j | z j = 1, θ) p (z j = 1 | θ) = π p y j (1 - p) 1 - y j p (y j, z j = 0 | θ) = p (y j | z j = 0, θ) p (z j = 0 | θ) = (1 - π) q y j (1 - q) 1 - y j

$\begin{array}{l} p({y_j},{z_j} = 1|\theta ) = p({y_j}|{z_j} = 1,\theta )p({z_j} = 1|\theta )\\ = \pi {p^{{y_j}}}{(1 - p)^{1 - {y_j}}}\\ p({y_j},{z_j} = 0|\theta ) = p({y_j}|{z_j} = 0,\theta )p({z_j} = 0|\theta )\\ = \left( {1 - \pi } \right){q^{{y_j}}}{(1 - q)^{1 - {y_j}}} \end{array}$
所以最终结果：

E Z | Y, θ (i) [log (P (Y, Z | θ))] = \sum j = 1 n {[p (z j = 1 | y j, θ (i)) log (p (y j, z j = 1 | θ))] + [p (z j = 0 | y j, θ (i)) log (p (y j, z j = 1 | θ))]} = \sum j = 1 n ⎧ ⎩ ⎨ ⎪ ⎪ μ (i + 1) j * log (π p y j (1 - p) 1 - y j) + (1 - μ (i + 1) j) * log ((1 - π) q y j (1 - q) 1 - y j) ⎫ ⎭ ⎬ ⎪ ⎪

$\begin{array}{l} {E_{Z|Y,{\theta ^{(i)}}}}[\log (P(Y,Z|\theta ))]\\ = \sum\limits_{j = 1}^n {\left\{ \begin{array}{l} [p({z_j} = 1|{y_j},{\theta ^{(i)}})\log (p({y_j},{z_j} = 1|\theta ))]\\ + [p({z_j} = 0|{y_j},{\theta ^{(i)}})\log (p({y_j},{z_j} = 1|\theta ))] \end{array} \right\}} \\ = \sum\limits_{j = 1}^n {\left\{ \begin{array}{l} \mu _j^{\left( {i + 1} \right)}*\log \left( {\pi {p^{{y_j}}}{{(1 - p)}^{1 - {y_j}}}} \right)\\ + \left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\log \left( {\left( {1 - \pi } \right){q^{{y_j}}}{{(1 - q)}^{1 - {y_j}}}} \right) \end{array} \right\}} \end{array}$

3.3) M-Step

3.3.1 估计参数pi

对E-Step的式子求极值，对参数求偏导，令其为0即可。其中 ${{\mu ^{\left( {i + 1} \right)}}}$ 为一个定值，相当于常数。
对 $\pi$ 的求偏导：

\partial f \partial π = \sum j = 1 n {μ (i + 1) j * 1 π - (1 - μ (i + 1) j) * 1 1 - π} = \sum j = 1 n {π - μ ( i + 1 ) j π ( 1 - π )} = n π - \sum j = 1 n μ ( i + 1 ) j π ( 1 - π ) = 0

$\begin{array}{l} \frac{{\partial f}}{{\partial \pi }} = \sum\limits_{j = 1}^n {\left\{ {\mu _j^{\left( {i + 1} \right)}*\frac{1}{\pi } - \left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\frac{1}{{1 - \pi }}} \right\}} \\ = \sum\limits_{j = 1}^n {\left\{ {\frac{{\pi - \mu _j^{\left( {i + 1} \right)}}}{{\pi \left( {1 - \pi } \right)}}} \right\}} \\ = \frac{{n\pi - \sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}} }}{{\pi \left( {1 - \pi } \right)}} = 0 \end{array}$
所以

π π $\pi$ 的估计为：

π = 1 n \sum j = 1 n μ (i + 1) j

$\pi = \frac{1}{n}\sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}}$

3.3.2 估计参数p

对 $p$ 求偏导:

\begin{array}{l} \frac{\partial f}{\partial p} = \sum_{j = 1}^{n} μ_{j}^{(i + 1)} * \frac{π {y_{j} p^{y_{j} - 1} {(1 - p)}^{1 - y_{j}} + p^{y_{j}} [- (1 - y_{j}) {(1 - p)}^{- y_{j}}]}}{π p^{y_{j}} {(1 - p)}^{1 - y_{j}}} \\ = \sum_{j = 1}^{n} μ_{j}^{(i + 1)} * \frac{{y_{j} p^{y_{j} - 1} {(1 - p)}^{- y_{j}} * (1 - p) + p^{y_{j} - 1} * p [(y_{j} - 1) {(1 - p)}^{- y_{j}}]}}{p^{y_{j}} {(1 - p)}^{1 - y_{j}}} \\ = \sum_{j = 1}^{n} μ_{j}^{(i + 1)} * \frac{{y_{j} (1 - p) + p * (y_{j} - 1)}}{p (1 - p)} \\ = \sum_{j = 1}^{n} μ_{j}^{(i + 1)} * \frac{{y_{j} (1 - p) + p * (y_{j} - 1)}}{p (1 - p)} \\ = \sum_{j = 1}^{n} μ_{j}^{(i + 1)} * \frac{{y_{j} - p}}{p (1 - p)} = 0 \end{array}

$\begin{array}{l} \frac{{\partial f}}{{\partial p}} = \sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}*\frac{{\pi \left\{ {{y_j}{p^{{y_j} - 1}}{{\left( {1 - p} \right)}^{1 - {y_j}}} + {p^{{y_j}}}\left[ { - \left( {1 - {y_j}} \right){{\left( {1 - p} \right)}^{ - {y_j}}}} \right]} \right\}}}{{\pi {p^{{y_j}}}{{\left( {1 - p} \right)}^{1 - {y_j}}}}}} \\ = \sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}*\frac{{\left\{ {{y_j}{p^{{y_j} - 1}}{{\left( {1 - p} \right)}^{ - {y_j}}}*\left( {1 - p} \right) + {p^{{y_j} - 1}}*p\left[ {\left( {{y_j} - 1} \right){{\left( {1 - p} \right)}^{ - {y_j}}}} \right]} \right\}}}{{{p^{{y_j}}}{{\left( {1 - p} \right)}^{1 - {y_j}}}}}} \\ = \sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}*\frac{{\left\{ {{y_j}\left( {1 - p} \right) + p*\left( {{y_j} - 1} \right)} \right\}}}{{p\left( {1 - p} \right)}}} \\ = \sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}*\frac{{\left\{ {{y_j}\left( {1 - p} \right) + p*\left( {{y_j} - 1} \right)} \right\}}}{{p\left( {1 - p} \right)}}} \\ = \sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}*\frac{{\left\{ {{y_j} - p} \right\}}}{{p\left( {1 - p} \right)}}} = 0 \end{array}$

p p $p$ 的估计为:

p = \frac{\sum_{j = 1}^{n} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{n} μ_{j}^{(i + 1)}}

$p = \frac{{\sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}{y_j}} }}{{\sum\limits_{j = 1}^n {\mu _j^{\left( {i + 1} \right)}} }}$

3.3.3 估计参数q

对 $q$ 求偏导:

\begin{array}{l} \frac{\partial f}{\partial q} = \sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)}) * \frac{(1 - π) {y_{j} q^{y_{j} - 1} {(1 - q)}^{1 - y_{j}} + q^{y_{j}} [- (1 - y_{j}) {(1 - q)}^{- y_{j}}]}}{(1 - π) q^{y_{j}} {(1 - q)}^{1 - y_{j}}} \\ = \sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)}) * \frac{{y_{j} q^{y_{j} - 1} {(1 - q)}^{- y_{j}} * (1 - q) + q^{y_{j} - 1} * q [(y_{j} - 1) {(1 - q)}^{- y_{j}}]}}{q^{y_{j}} {(1 - q)}^{1 - y_{j}}} \\ = \sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)}) * \frac{{y_{j} (1 - q) + q * (y_{j} - 1)}}{q (1 - q)} \\ = \sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)}) * \frac{{y_{j} (1 - q) + q * (y_{j} - 1)}}{q (1 - q)} \\ = \sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)}) * \frac{{y_{j} - q}}{p (1 - q)} = 0 \end{array}

$\begin{array}{l} \frac{{\partial f}}{{\partial q}} = \sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\frac{{\left( {1 - \pi } \right)\left\{ {{y_j}{q^{{y_j} - 1}}{{\left( {1 - q} \right)}^{1 - {y_j}}} + {q^{{y_j}}}\left[ { - \left( {1 - {y_j}} \right){{\left( {1 - q} \right)}^{ - {y_j}}}} \right]} \right\}}}{{\left( {1 - \pi } \right){q^{{y_j}}}{{\left( {1 - q} \right)}^{1 - {y_j}}}}}} \\ = \sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\frac{{\left\{ {{y_j}{q^{{y_j} - 1}}{{\left( {1 - q} \right)}^{ - {y_j}}}*\left( {1 - q} \right) + {q^{{y_j} - 1}}*q\left[ {\left( {{y_j} - 1} \right){{\left( {1 - q} \right)}^{ - {y_j}}}} \right]} \right\}}}{{{q^{{y_j}}}{{\left( {1 - q} \right)}^{1 - {y_j}}}}}} \\ = \sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\frac{{\left\{ {{y_j}\left( {1 - q} \right) + q*\left( {{y_j} - 1} \right)} \right\}}}{{q\left( {1 - q} \right)}}} \\ = \sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\frac{{\left\{ {{y_j}\left( {1 - q} \right) + q*\left( {{y_j} - 1} \right)} \right\}}}{{q\left( {1 - q} \right)}}} \\ = \sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)*\frac{{\left\{ {{y_j} - q} \right\}}}{{p\left( {1 - q} \right)}}} = 0 \end{array}$

q q $q$ 的估计为:

p = \frac{\sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)}) y_{j}}{\sum_{j = 1}^{n} (1 - μ_{j}^{(i + 1)})}

$p = \frac{{\sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right){y_j}} }}{{\sum\limits_{j = 1}^n {\left( {1 - \mu _j^{\left( {i + 1} \right)}} \right)} }}$