最大似然和EM算法

最新推荐文章于 2022-12-30 16:32:56 发布

一路没你

最新推荐文章于 2022-12-30 16:32:56 发布

阅读量277

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhisuihen6347/article/details/91446236

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

最大似然

你知道一个分布，但是不知道分布的具体参数，比如你知道学校男生身高分布服从高斯分布，但是你不知道其参数，即 $\theta=[u,\sigma]$ 。这是就可以使用最大似然来求解参数。
首先需要从该分布中采样获取数据，比如你获取了 $N$ 个数据，就可以得到其似然函数，如下：
$L(\theta)=L(x_1,\dots,x_n;\theta)=\prod_{i=1}^Np(x_i;\theta)$
其中，每次采样获得的 $x_i$ 都是独立同分布服从 $N(u,\sigma)$ ，所以似然函数可以理解为采样获得这组数据的概率。
为了求得参数 $\hat{\theta}$ ，我们只要求：
$\hat{\theta}=\arg\max_\theta\log L(\theta)$
那为什么 $\hat{\theta}$ 就是我们所需要的参数呢，这个就是最大似然的思想：采样得到的数据客观来讲就是概率最大数据。举个最简单的例子，从装有8个黑球和2个红球的袋子中随机取出一个球，在没看到这个球的颜色前，要你猜一个你肯定会猜是黑色的。如果还是不理解可以参考下面的链接。

EM算法

EM算法是在最大似然的基础上的，就刚刚学校男生身高的例子中，如果给你采样的数据中有男生也有女生，明显男生女生身高服从不同的分布，那如何来求出我们所需要的 $\theta$ 呢？这边我们需要引入隐变量 $Z$ 。同样我们还是要最大化似然函数，为了方便我们记似然函数为：
$L(\theta)=p(X|\theta)$
这个和上面的似然函数的表达式是等价的， $X$ 就是我们采样得到的数据。

算法推导一

目标：
$\hat{\theta}=\arg\max_\theta\log p(X|\theta)$
$\begin{aligned} \log p(X|\theta)&=\log p(X,Z|\theta)-\log p(Z|X,\theta) \\ &=\log \frac{p(X,Z|\theta)}{q(Z)}-\log \frac{p(Z|X,\theta)}{q(Z)}(引入概率密度q(Z)不为0) \end{aligned}$
等号两边都乘以 $q (Z)$ ，然后对 $Z$ 积分，得到：
$\log p(X|\theta)=ELBO+KL(q||p)$
$KL(q||p)=\int_Zq(Z)\log \frac{p(Z|X,\theta)}{q(Z)}dZ\ge0$ ，可以用jensen不等式证明。
补充jensen不等式：

如果 $f (x)$ 为凸函数，则 $E[f(x)]\ge f(E[x])$ ，凹函数则相反。上式等号成立时， $\frac{p(Z|X,\theta)}{q(Z)}$ 取常数，即 $\frac{p(Z|X,\theta)}{q(Z)}=c$ ， $\int_Zp(Z|X,\theta)dZ=c\int_Zq(Z)dZ\Rightarrow c=1$ ，所以得 $q(Z)=p(Z|X,\theta^{(t)})$ 。

我们取 $q(Z)=p(Z|X,\theta^{(t)})$ ，EM算法为迭代算法， $\theta^{(t)}$ 为上一轮得到的 $\hat{\theta}$ 。
那么我们要求使得 $\log p(X|\theta)$ 最大的 $\theta$ 值，而ELBO是其下届，我们只要不断最大化下届即可，如下式：
$\begin{aligned} \hat{\theta}&=\arg\max_\theta ELBO\\ &=\arg\max_\theta\int_Zp(Z|X,\theta^{(t)})\log\frac{p(X,Z|\theta)}{p(Z|X,\theta^{(t)})}dZ\\ &=\arg\max_\theta\int_Zp(Z|X,\theta^{(t)})\log p(X,Z|\theta)dZ \end{aligned}$
最后的EM算法总结为：
E-step:
$q(Z)=p(Z|X,\theta^{(t)})$
M-step:
$\hat{\theta}=\arg\max_\theta\int_Zp(Z|X,\theta^{(t)})\log p(X,Z|\theta)dZ$
循环E-step，M-step，直到参数 $\theta$ 收敛。

算法推导二

目标函数还是一样的，但是处理方式不同，如下：
$\begin{aligned} \log p(X|\theta)&=\log \int_Zp(X,Z|\theta)dZ \\ &=\log \int_Z\frac{p(X,Z|\theta)}{q(Z)}q(Z)dZ\\ &=\log E_{q(Z)}[\frac{p(X,Z|\theta)}{q(Z)}](使用jensen不等式)\\ &\ge E_{q(Z)}[\log\frac{p(X,Z|\theta)}{q(Z)}] \end{aligned}$
等号成立时， $p(X,Z|\theta^{(t)})=cq(Z)$ ，两边对 $Z$ 积分得：
$\begin{aligned} &\int_Z p(X,Z|\theta^{(t)})dZ=c\int_Zq(Z)dZ\\ &\Rightarrow c=p(X|\theta^{(t)})\\ &q(Z)=\frac{p(X,Z|\theta^{(t)})}{c}=\frac{p(X,Z|\theta^{(t)})}{p(X|\theta^{(t)})}=p(Z|X,\theta^{(t)}) \end{aligned}$
结论和上面一致。
参考：
https://blog.csdn.net/zouxy09/article/details/8537620
https://www.bilibili.com/video/av31906558/?p=1

一路没你

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大似然和EM算法

最大似然你知道一个分布，但是不知道分布的具体参数，比如你知道学校男生身高分布服从高斯分布，但是你不知道其参数，即θ=[u,σ]\theta=[u,\sigma]θ=[u,σ]。这是就可以使用最大似然来求解参数。首先需要从该分布中采样获取数据，比如你获取了NNN个数据，就可以得到其似然函数，如下：L(θ)=L(x1,…,xn;θ)=∏i=1Np(xi;θ)L(\theta)=...
复制链接

扫一扫

专栏目录