对MMVAE中IWAE代码实现的理解

最新推荐文章于 2024-08-13 17:25:37 发布

XAL1

最新推荐文章于 2024-08-13 17:25:37 发布

阅读量600

点赞数

分类专栏：笔记文章标签：深度学习 python

本文链接：https://blog.csdn.net/weixin_45607635/article/details/127888665

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

原始的IWAE

优化目标：
$\mathcal{L}_{\mathrm{IWAE}}\left(\boldsymbol{x}_{1: M}\right)=\mathbb{E}_{\boldsymbol{z}^{1: K} \sim q_{\Phi}\left(\boldsymbol{z} \mid \boldsymbol{x}_{1: M}\right)}\left[\log \sum_{k=1}^K \frac{1}{K} \frac{p_{\Theta}\left(\boldsymbol{z}^k, \boldsymbol{x}_{1: M}\right)}{q_{\Phi}\left(\boldsymbol{z}^k \mid \boldsymbol{x}_{1: M}\right)}\right] \quad\quad\quad（1）$

这里 $p_{\Theta}\left(\boldsymbol{z}, \boldsymbol{x}_{1: M}\right)=p(\boldsymbol{z}) \prod_{m=1}^M p_{\theta_m}\left(\boldsymbol{x}_m \mid \boldsymbol{z}\right)$
后验分布由推理网络近似得到 $q_{\Phi}\left(\boldsymbol{z}^k \mid \boldsymbol{x}_{1: M}\right)$

MMVAE中的IWAE变体

采用MoE方法进行多模态融合的优化目标：
$\mathcal{L}_{\mathrm{IWAE}}^{\mathrm{MoE}}\left(\boldsymbol{x}_{1: M}\right)=\frac{1}{M} \sum_{m=1}^M \mathbb{E}_{\boldsymbol{z}_m^{1: K} \sim q_{\phi_m}\left(\boldsymbol{z} \mid \boldsymbol{x}_m\right)}\left[\log \frac{1}{K} \sum_{k=1}^K \frac{p_{\Theta}\left(\boldsymbol{z}_m^k, \boldsymbol{x}_{1: M}\right)}{q_{\Phi}\left(\boldsymbol{z}_m^k \mid \boldsymbol{x}_{1: M}\right)}\right] \quad\quad\quad（2）$

根据MoE方法近似的后验分布为： $q_{\Phi}\left(\boldsymbol{z} \mid \boldsymbol{x}_{1: M}\right)=\sum_m \alpha_m \cdot q_{\phi_m}\left(\boldsymbol{z} \mid \boldsymbol{x}_m\right)$ ，这里 $\alpha = \frac{1}{M}$

计算IWAE的主体代码：
在这里插入图片描述

.log_prob(value)是计算value在定义的概率分布中对应的概率的对数。
log_mean_exp(value)在后面介绍

在for循环里面一行行的分析，以r=0为例：

lpz = $log p(z_1)$ ，每个潜在变量的尺寸：[K, batch size, latent dim]，在这里用sum(-1)相当于是将潜在变量由latent dim压缩到1维
lqz_x = $log [ q(z_1 | x_1) + q(z_1 | x_2)]$
lpx_z = $logp(x_1|z_1) + logp(x_2|z_1)$
lw = lpz + lpx_z + lqz_x

最后运算：

l1 = log_mean_exp(lw, dim=0)

就可以得到: $\cfrac{p(z_1)\cdotp(x_1|z_1)\cdotp(x_2|z_1)}{q(z_1|x_1) + q(z_1|x_2)} \quad\quad\quad（3）$

这个结果就是上述公式2中m=1时的结果，这样一行行的分析就可以很好的理解上述代码是如何实现IWAE多模态变体的。

log_mean_exp

其中log_mean_exp的代码：

def log_mean_exp(value, dim=0, keepdim=False):
    return torch.logsumexp(value, dim, keepdim=keepdim) - math.log(value.size(dim))

log_mean_exp和torch.logsumexp的区别就是字面意思，前面取平均，后者求和

因为MMVAE中的后验分布为 $q_{\Phi}\left(\boldsymbol{z} \mid \boldsymbol{x}_{1: M}\right)=\sum_m \alpha_m \cdot q_{\phi_m}\left(\boldsymbol{z} \mid \boldsymbol{x}_m\right)$ ，这里 $\alpha = \frac{1}{M}$ ，即需要对上述式子3中的分母取平均，所以log_mean_exp可以写成下述公式：
$\operatorname{logmeanexp}(x)_i=\log \frac{1}{j}\sum_j \exp \left(x_{i j}\right) = \log \sum_j \exp (x_{i j}) - \log j$
torch.logsumexp的介绍截图自官网：