标题 | 作者 | 单位 | 期刊 | 关键词 |
---|---|---|---|---|
生成对抗网络及其在图像生成中的应用研究综述 | 陈佛计 朱枫 吴清潇 郝颖铭 王恩德 崔云阁 | 中国科学院 | 计算机学报 | 生成模型;生成对抗网络 ;图像生成 ; 生成图像质量评估 |
生成对抗网络及其在图像生成中的应用研究综述
一、GAN的介绍
1.工作机理(略读)
生成器
学到一个近似于真实数据分布的函数
判别器
判断输入的数据是来自于真实的样本还是来自于G生成的样本。
目标函数
V(G,D):二分类的交叉熵函数
2.GAN的目标函数(略读)
3.GAN的网络结构(精读)
3.1基于卷积神经网络搭建的对抗网络
- DCNN(首次采用此结构):
- 生成器:反卷积神经网络
- 鉴别器:多层卷积网络
- pix2pix、cycleGAN
3.2自动编码网络
-
VAE-GAN
- 用鉴别器D来表示VAE的重构损失
-
Bi-GAN
- Encoder-Decoder结构实现生成器
- Encoder-Decoder结构实现生成器
3.3论文外内容补充
3.3.1变分自编码器VAE
-
传统的自编码器
-
变分自编码器
- 将给定输入的每个潜在特征表示为概率分布。当从潜在状态解码时,将从每个潜在状态分布中随机采样,生成一个向量作为解码器模型的输入
-
变分自编码器的结构
一个用于原始输入数据的变分推断,生成隐变量的变分概率分布,称为推断网络;
另一个根据生成的隐变量变分概率分布,还原生成原始数据的近似概率分布,称为生成网络。
4.训练GAN存在的问题以及应对策略
- 理论方面
- 梯度消失的问题
- 原因:采用KL散度或者是JSD度量差异,这种度量方式可能会饱和。
- 解决方法:采用替代损失函数的方法来改善梯度消失问题
- WassersteinGAN:EM距离来替代标准GAN中的JSD
- LSGAN:是使用均方损失替代标准GAN中的对数损失
- 模式崩溃问题
- 原因:KL散度的不对称性使得对抗网络宁可丧失生成器生成模式的多性,也不愿丧失鉴别器的准确性。
- 解决方法:
- GRAGAN:采用梯度惩罚的方式来避 免GAN的博弈的一个局部平衡的状态 。
- Uncontroll GANS:在更新参数的时候不是仅仅用当前的梯度值,而且是用前几次梯度值的加权和来对当前的参数值进行更新。
- Pac-GAN:将多个属于同类的样本进行打包,然后传递给鉴别器,来减少模式崩溃现象的发生
- STAR-GAN:集成的方法,先独立地训练GAN对局部GAN,然后基于局部GAN去训练全局GAN,从而保证全局GAN生成模式的多样性。
- 梯度消失的问题
- 实践方面
- 对生成器生成图像评估方式没有统一的标准
二、基于GAN的图像生成的一般方法
1.直接法
只有一个生成器和一个鉴别器,生成器直接学习个逼近真实数据分布的分布,从学习到的分布中采样来生成样本。
2.集成法
把视觉任务分成几个部分,然后每一个GAN去完成视觉任务的一部分
三、基于随机向量生成图像
将一个服从某一分布的随机向量映射为采样于服从某一分布的图像
1.基于互信息的图像生成:Info-GAN
- 人为地将输入向量限制为随机噪声向量和隐向量两个部分,这些向量服从于某一先验的连续的或者离散概率分布,用以表示生成数据的不同特征维度
- 加入互信息正则化约束(互信息:度量一个随机变量中包含关于另一个随机变量的信息量)
2.基于注意力机制的图像生成:self-Attention GAN
- 自注意力机制
- 单位大小卷积核对特征向量做处理
- 获取注意力权值
- 注意力特征映射
-带注意力机制的特征映射
- 单位大小卷积核对特征向量做处理
3.基于单幅图像做图像生成:Sin-GAN
- 使用的训练样本是单幅图像不同尺度下采样的图像,而不是数据集中的整个图像样本
四、基于图像转换生成图像
1.基于有监督方式的图像转换
- pix2pix:将一种类型的图像转换到另一种类型
- pix2pixHD:在 pix2pix基础上,基于实例分割图像
- PLDT:在对抗网络 的 基础上增加一个用来判断来自不同区域的图像的图像对是否相关的鉴别器来实现 有监督 的 图 像 到 图 像 转换
2.基于无监督方式的图像转换
2.1基于自重损失的图像转换:Cycle-GAN、Dual-GAN
2.1.1Cycle-GAN
- 两个生成器:Gxy、Gyx
- 两个鉴别器:Dxy、Dyx
- 两个域:X、Y
- 两个对抗网络的损失函数
- 模型自重重构损 失是通过最小化重构误差实现
- Cycle-GAN的损失函数
- 最终目标:优化此函数
2.1.2 Dual-GAN
- 目标函数改用最小二乘损失函数,能减缓梯度消失问题
- 训练更新鉴别器参数的时候不仅仅用当前前生成器生成的图像,而且还会 用到以前生成器生成的图像:缓解模式崩溃问题。
2.2基于辅助分类器的图像转换
- 在GAN隐藏层加入更多网络结构,在目标函数相应的约束项:提高生成图像的质量与多样性
2.2.1ACGAN
- 会对输入图像的类别做一个预测,鉴别器会给出域概率分布和类标签概率分布
2.3 基于特征分离的图像转换:DRIT
- 在隐空间中将图像的内容和属性分别学习,然后将图像的属性和内容任意结合来生成带有期望属性的图像
五、生成图像质量的定量评估方法
1.Inception Score
- 使用预先训练的Inception V3网络
- 输入生成的图像x,x越好,条件概率分布P(y|x)熵越低
- 图像具有多样性,边缘分布熵越高
- IS计算
2.Frechet Inception Distance
- Inception网络的卷积特征层作为一个特征函数
- 用特征函数将真实数据分布和生成数据分布建模为两个多元高斯随机变量
- 计算多元高斯分布的均值和方差
- 生成图像的质量:两个高斯分布发Frechet距离
3.ModeScore
- 真实数据分布中样本的边缘标签分布
4. 1-最近邻
六、总结
根据对本论文的学习总结出需要继续学习的内容
- Info-GAN
- Self-Attention GAN
- SIn-GAN
- Pix2Pix
- Cycle-GAN
- Dual-GAN
- ACGAN
- D2GAN
- DRIT
- Star-GAN