统计计算三|Cases for EM

最新推荐文章于 2024-06-12 22:18:06 发布

丁希希哇

最新推荐文章于 2024-06-12 22:18:06 发布

阅读量1k

点赞数 15

分类专栏：统计相关理论文章标签：学习 em算法

本文链接：https://blog.csdn.net/weixin_47748259/article/details/139202209

版权

统计相关理论专栏收录该内容

16 篇文章 0 订阅

订阅专栏

系列文章目录

统计计算一|非线性方程的求解
 统计计算二|EM算法（Expectation-Maximization Algorithm，期望最大化算法）

一、两枚硬币正面概率估算

问题背景

假设有 A, B 两枚硬币，设计了六组试验，每次试验投掷5 次硬币，需要根据投掷出的结果判断两枚硬币正面朝上的概率。
待估参数： 两枚硬币正面朝上的概率 $p_A$ , $p_B$
观测数据： 第 $i$ 组试验结果为 $X_i = (x_{i1}, x_{i2}, x_{i3}, x_{i4}, x_{i5})(i = 1,..., 6)$ ， $x_{ij} = 1$ 表示硬币出现正面， $x_{ij} = 0$ 表示硬币出现反面
可能未观测到的缺失数据： $Z_i = 1$ 表示 A 硬币投的结果， $Z_i = 0$ 表示 B 硬币投的结果

1、完全数据的对数似然函数

基于完整数据 $Y_i = (X_i, Z_i), i = 1, 2,... , 6$ 的对数似然函数为：
在这里插入图片描述
若 $z_k$ 已知，就不需要用条件期望，直接对似然函数求偏导即可：
也就是参数 $p_A$ , $p_B$ 的估计，只需分别统计 A, B 硬币投的结果出现正面的次数，然后除以分别投的总次数。

2、Q函数（对数似然的条件期望）

若 $z_k$ 未观测到，则需要计算对应的Q函数：
在这里插入图片描述

3、极大化Q函数得到参数的估计

关于 $p_A,p_B$ ，极大化Q函数可得：
在这里插入图片描述
其中 $E(Z_k|X;p_A^{(i-1)},p_B^{(i-1)})$ 计算可得：

二、多项分布参数的 EM 算法

问题背景

假设 $x=(x_1,...,x_m)$ 服从多项分布，也就是：
$p(x|p_1,...,p_m)=\frac{n!}{x_1!...x_m!}p_1^{x_1}...p_m^{x_m}$
如果 $m = 4$ ， $(p_1,...,p_4)=(0.5-\theta/2,\theta/4,\theta/4,0.5)$
待估参数： $\theta$
观测数据： $x=(x_1,x_2,x_{34})^{\tau}$ ，其中 $x_{34}=x_3+x_4$

1、完全数据的对数似然函数

潜变量 $x_3,x_4$ 没有观测到，基于完整数据 $y = (x, z)$ ，即 $(x_1,x_2,x_3,x_4)^{\tau}$ ，对数似然函数为：
在这里插入图片描述

2、Q函数（对数似然的条件期望）

基于观测到的数据和上次迭代估计 $θ^{(i−1)}$ ，计算对数似然的条件期望：
在这里插入图片描述

关键步骤的补充说明：

此时可得对数似然的条件期望为：
在这里插入图片描述

3、极大化Q函数得到参数的估计

对Q函数求导可得：
在这里插入图片描述通过不断迭代，最终得到 $θ$ 的估计。

如果数据完全观测到，也就是 $x_3$ 被观测，则参数 $θ$ 的极大似然估计为：
$\hat{\theta}=\frac{x_2+x_3}{x_1+x_2+x_3}$

对比完全数据的极大似然估计 $\hat{θ}$ 和 EM 算法第 $i$ 次迭代估计 $θ^{(i)}$ , EM算法本质上相当于把基于完整数据得到的极大似然估计量中没有观测到的数据，采用观测到的数据和上次迭代估计 $θ^{(i−1)}$ 预测。

三、多项式分布的特点

1、多项式分布其中两个类别合在一起，新分布也是多项式分布。

设 $x=(x_1,...,x_m)$ 服从多项分布，即：
$p(x_1|p_1,...,p_m)=\frac{n!}{x_1!...x_m!}p_1^{x_1}...p_m^{x_m}$
则 $x^*=(x_1+x_2,x_3,...,x_m)$ 也服从多项分布：
$p(x^*|p_1,...,p_m)=\frac{n!}{(x_1+x_2)!...x_m!}(p_1+p_2)^{x_1+x_2}...p_m^{x_m}$

证明：

2、多项式分布的其中两个类别，他们加起来等于一个常数的话，那么他们两个在这个常数下的条件概率分布成比例于他们在原有的多项式分布中各自的概率，然后他们在这个二项式分布真实的概率为它们在联合概率中的这个概率除以它们的求和。

设 $x=(x_1,...,x_m)$ 服从多项分布，即：
$p(x_1|p_1,...,p_m)=\frac{n!}{x_1!...x_m!}p_1^{x_1}...p_m^{x_m}$
则 $x_1,x_2|x_1+x_2=y$ 也服从多项分布：
$p(x_1,x_2|x_1+x_2=y,p)=C_y^{x_1}(\frac{p_1}{p_1+p_2})^{x_1}(\frac{p_2}{p_1+p_2})^{y-x_1},x_1=0,1,...,y$

四、正态分布参数 EM 估计

问题背景

来自正态总体 $N(\mu,\sigma^2)$ 的完整数据 $y=(x_1,x_2,...,x_n)^{\tau}$ ，观测到的数据为 $x=(x_1,...,x_m)$ ，隐含数据为 $z=(x_{m+1},...,x_n)$ 。

1、完全数据的对数似然函数

基于完整数据 $y$ 的极大似然函数为：
在这里插入图片描述

2、Q函数（对数似然的条件期望）

基于观测数据的条件对数似然为：
在这里插入图片描述

3、极大化Q函数得到参数的估计

对Q函数求导可得：
在这里插入图片描述
给定第 $i - 1$ 步的 $µ^{(i−1)}, σ^{2^{(i−1)}})$ ，且未观测到的隐含数据和观测到的数据独立，则

在这里插入图片描述
若未观测的隐含数据和观测数据相关，则根据变量相关性计算。

五、二项泊松混合模型的 EM 估计

问题背景

观测 $n$ 个人的B站用户等级，等级为 $i (i = 0, 1,, ..., 6)$ 的人数是 $n_i$ ， $n=\sum_{i=0}^6n_i$ 。假定已注册的人的B站等级服从参数为 $\lambda$ 的泊松分布，且刚注册和没有注册的用户等级均为0，观测得到的数据为：

用户等级	0	1	2	3	4	5	6
人数	$n_0$	$n_1$	$n_2$	$n_3$	$n_4$	$n_5$	$n_6$

待估参数：参数 $\lambda$ 和没有注册的概率 $\xi$
观测数据： $x=(n_0,n_1,...n_6)$
令 $n_A$ 表示没有注册的人数，则 $n_B=n_0-n_A$ 表示刚注册等级为0的用户。
隐含数据： $z=n_A$

1、完全数据的对数似然函数

基于完整数据 $y = (x, z)$ 的极大似然函数为：
在这里插入图片描述

相当于先随机分组，再乘以每个人出现在这个组别的概率（多项式分布）。这是从整体考虑的似然函数，而非从个体出发。

2、Q函数（对数似然的条件期望）

基于观测数据 $x$ 和上次迭代估计 $ξ^{(i−1)}$ , $λ^{(i−1)}$ , 对数似然的条件期望为：

在这里插入图片描述

3、极大化Q函数得到参数的估计

对 $Q(ξ, λ; ξ^{(i−1)}, λ^{(i−1)})$ 关于 $ξ$ , $λ$ 求导, 可得
在这里插入图片描述

丁希希哇

关注

15
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
统计计算三|Cases for EM

2、多项式分布的其中两个类别，他们加起来等于一个常数的话，那么他们两个在这个常数下的条件概率分布成比例于他们在原有的多项式分布中各自的概率，然后他们在这个二项式分布真实的概率为它们在联合概率中的这个概率除以它们的求和。, EM算法本质上相当于把基于完整数据得到的极大似然估计量中没有观测到的数据，采用观测到的数据和上次迭代估计。的估计，只需分别统计 A, B 硬币投的结果出现正面的次数，然后除以分别投的总次数。，且未观测到的隐含数据和观测到的数据独立，则。假定已注册的人的B站等级服从参数为。
复制链接

扫一扫