Variational Autoencoder: Basic Concept

最新推荐文章于 2022-07-24 09:36:42 发布

张小彬的代码人生

最新推荐文章于 2022-07-24 09:36:42 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签： vae 生成模型

本文链接：https://blog.csdn.net/zhangxb35/article/details/78089070

版权

本文从神经网络和概率模型两个角度探讨Variational Autoencoder（VAE），介绍了如何通过Reparametrization Trick解决梯度消失问题，并讨论了模型的学习与优化过程。通过对VAE的理解，可以掌握其在生成新数据上的应用。

摘要由CSDN通过智能技术生成

The neural network perspective

传统的 Autoencoder 结构如下图：

但是这种结构没法生成新数据，只能做数据压缩。怎么改进呢？可以考虑加一个正则项，让隐变量趋近一个单位高斯分布。

generation_loss = mean(square(generated_image - real_image))  
latent_loss = KL-Divergence(latent_variable, unit_gaussian)  
loss = generation_loss + latent_loss

其中两个高斯分布的 KL divergence 可以套公式计算如下，

# z_mean and z_stddev are two vectors generated by encoder network
latent_loss = 0.5 * tf.reduce_sum(tf.square(z_mean) + \ 
            tf.square(z_stddev) - tf.log(tf.square(z_stddev)) - 1,1)

值得一提的是，encoder 不是直接生成隐变量 $z$ 的分布，而是先假设隐变量服从一个高斯分布，让 encoder 生成高斯分布的均值和方差。代码是这样的

samples = tf.random_normal([batchsize,n_z],0,1,dtype=tf.float32)  
sampled_z = z_mean + (z_stddev * samples)

下面用公式形式化地描述上面的过程，用 $q_\theta(z|x)$ 表示 encoder，也叫 Inference Network，是从样本中得到隐变量；用 $p_\phi(x|z)$ 表示 decoder，也叫 Generative Network. 其中 $\theta, \phi$ 是神经网络的参数，即权重和偏置。

那么对单个样本 $x_i$ 的损失为

L i (θ, ϕ) = - E z \sim q θ (z | x i) [log p ϕ (x i | z)] + K L (q θ (z | x i) ∥ p (z))

$L_i(\theta, \phi)= -\mathbb{E}_{z \sim q_\theta(z|x_i)}[\log p_\phi(x_i|z)] + KL(q_\theta(z|x_i) \| p(z))$

前者是重构损失，用对数是因为要极大化整体训练集的对数似然函数；后者是 KL divergence 的正则项。 $p(z) \sim \mathcal{N}(0, I)$

假设 encoder 得到的高斯分布的均值为 $\mu(x)$ ，方差是 $\Sigma(x)$ ，而 $p(z)$ 服从标准正态分布，即 $p(z) \sim \mathcal{N}(0, I)$ ，其中 $I$ 是单位矩阵。那么 KL divergence 计算如下，

K L [N (μ (x), Σ (x)) ∥ N (0, I)] = 1 2 (t r (Σ (x)) + (μ (x)) ⊤ (μ (x)) - k - log det (Σ (x)))

$KL[\mathcal{N}(\mu(x), \Sigma(x)) \| \mathcal{N}(0, I)] = \frac12(\mathrm{tr}(\Sigma(x)) + (\mu(x))^\top(\mu(x)) - k - \log \det(\Sigma(x)))$

The probability model perspective

如果是概率图模型的角度，有隐变量 $z$ 和观察变量 $x$ ，那么联合概率分布是

p (x, z) = p (z)

最低0.47元/天解锁文章

张小彬的代码人生

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Variational Autoencoder: Basic Concept

The neural network perspective传统的 Autoencoder 结构如下图：但是这种结构没法生成新数据，只能做数据压缩。怎么改进呢？可以考虑加一个正则项，让隐变量趋近一个单位高斯分布。generation_loss = mean(square(generated_image - real_image)) latent_loss = KL-Divergence(la
复制链接

扫一扫

专栏目录