深度学习的学习与实践（1）：从AE，VAE，到AAE

最新推荐文章于 2024-03-11 19:15:07 发布

container_body

最新推荐文章于 2024-03-11 19:15:07 发布

阅读量1.1k

点赞数 3

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_43910007/article/details/105783674

版权

前置知识：自编码器入门

前段时间在改论文的过程中，审稿人给出了关于使用对抗自编码器算法的建议——2020.2
以上算是序

自编码器（autoencoder）是一种无监督学习神经网络

基本定义

本质上来说，自编码器是一种所谓”生成模型“，也就是根据给定的数据集去学习数据的分布函数，然后通过调整神经网络的参数使输出和原数据集尽量一致。一般的，自编码器的原型是一个单隐层的神经网络
单隐层神经网络
从输入层到隐层的过程可以理解为一个“编码”（encode）过程，即用更低维度的一组数据来特征化的表示原数据。而隐层到输出层的过程则可以看作一个“解码”（decode）过程，即从特征化数据中还原出原数据。整个网络一般通过最小化输出 $\hat{X}$ 与原输入 $X$ 之间的重构误差 $L(\hat{X}, X)$ 来进行训练。

自编码器的网络特征

自编码器所构建的神经网络一般有以下两个特征：
1.隐层神经元数必须比输入层少。因为隐层要起到编码，也就是压缩信息的作用，否则就起不到提取数据特征的目的，而变成了无意义的复制；
2.隐层通常并不是简单的单层结构。如果我们采用单隐层，那么当采用线性激活函数时，编码过程就变成了类似主成分分析降维效果，丢失掉一部分特征之间隐含的非线性关系。所以最好采用多层网络结构，留出足够储存隐含关系的空间

对抗自编码器

AAE（adversarial autoencoder）是一种改进型的自编码器算法，来源是这篇paper。它是一种对变分自编码器（VAE）和生成对抗网络（GAN）的结合，在变分自编码器的基础上引入了对抗网络，从而实现了使用对抗训练框架来实现对潜变量 $z$ 的惩罚约束，替换了变分自编码器算法中复杂的基于变分贝叶斯推导和最小化KL散度的惩罚约束过程。

必要的补充：VAE

说实话原文paper是没怎么说明算法的具体细节的，对于没有学习过变分自编码器算法的人来说看起来就是一头雾水，所以需要顺便学习下VAE变分自编码器算是一种相当经典的生成模型。它所采用的“变分推断”（variational inference，参考知乎上一篇很好的回答）的方法适合于解决机器学习中的概率学习问题。
我们通过一般的生成问题来简单的梳理下变分自编码器的算法结构：

前提条件：已知真实样本 $X$ ，需要推知随机变量 $x$ 的分布 $p (x)$

这样其实就是一个很典型的概率学习问题，而一般的生成问题其实都可以看作是概率问题。比如比较典型的图像生成问题，本质上就是通过现有的图像样本去学习生成图像数据的概率分布，然后通过得到的分布去生成更多的图像样本。
事实上，当我们说需要学习数据的概率分布时，我们会很自然的想到极大似然估计等参数估计方法。但是这些方法只有在给定概率分布的前提下才能使用。然而我们面对的问题中，不光概率分布的参数 $\theta$ 未知，概率分布本身 $p$ 也未知。
因此，为了解决这一问题，变分自编码器算法中引入了变分推断的方法。简单来说，所谓变分推断的方法就是，当我们想要得到随机变量 $x$ 的分布 $p$ 而无法直接得到时，我们就在另一个样本空间 $Z$ 中构建一个分布已知的中间变量（潜变量） $z$ （比如高斯分布），然后通过映射得到 $z$ 的分布 $q$ 在样本空间 $X$ 中的映射分布。由于 $z$ 的分布 $q$ 是我们自己设定的，所以 $z$ 在 $X$ 中映射就是可控的，我们就可以使用分布 $q$ 去逐渐逼近 $p$ 从而达到尽可能得到真实分布 $p$ 的目的。那么AE和VAE的区别也就在于，变分推断的引入使得原本只能求解潜变量 $z$ 和原变量 $x$ 之间单值映射关系的AE变为了求解 $z$ 和 $x$ 之间分布 $p$ 和 $q$ 映射关系的VAE，从而能够实现更好的生成效果。关于为什么分布映射会比单值映射有更好的效果，参考下面一段文字

假如在AE中，一张满月的图片作为输入，模型得到的输出是一张满月的图片；一张弦月的图片作为输入，模型得到的是一张弦月的图片。当从满月的code和弦月的code中间sample出一个点，我们希望是一张介于满月和弦月之间的图片，但实际上，对于AE我们没办法确定模型会输出什么样的图片，因为我们并不知道模型从满月的code到弦月的code发生了什么变化
——引自blog《AE&VAE》

现在我们来简单梳理一下VAE的算法流程（这一部分巨™烦，但是搞懂对后续理解很有帮助）

其结构和一般的自编码器类似，由encoder和decoder组成，而其特点则在于在loss（损失函数）的设计和参数更新的过程中采用了的变分推断的方法。算法流程大致如下：
1、先向encoder网络中输入样本 $x_i$ ，得到 $q_\phi(z|x_i)$ 的充分统计量 $\mu$ 和 $\sigma$ ；
2、由正态分布 $q_\phi(z|x_i)$ 抽样得到 $z_i$ ；
3、向decoder网络输入 $z_i$ ，得到重构样本 $\hat{x_i}$