【论文阅读笔记】生成对抗网络及其在图像生成中的应用研究综述

最新推荐文章于 2025-03-19 22:13:54 发布

weixin_50830241

最新推荐文章于 2025-03-19 22:13:54 发布

阅读量1k

点赞数 1

文章标签：论文阅读笔记生成对抗网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50830241/article/details/131254971

版权

标题	作者	单位	期刊	关键词
生成对抗网络及其在图像生成中的应用研究综述	陈佛计朱枫吴清潇郝颖铭王恩德崔云阁	中国科学院	计算机学报	生成模型；生成对抗网络；图像生成；生成图像质量评估

生成对抗网络及其在图像生成中的应用研究综述

一、GAN的介绍
二、基于GAN的图像生成的一般方法
- 1.直接法
- 2.集成法
三、基于随机向量生成图像
四、基于图像转换生成图像
五、生成图像质量的定量评估方法
六、总结
- 根据对本论文的学习总结出需要继续学习的内容

一、GAN的介绍

1.工作机理（略读）

生成器

学到一个近似于真实数据分布的函数

判别器

判断输入的数据是来自于真实的样本还是来自于Ｇ生成的样本。
在这里插入图片描述

目标函数

V(G,D)：二分类的交叉熵函数
在这里插入图片描述

2.GAN的目标函数（略读）

在这里插入图片描述

3.GAN的网络结构（精读）

3.1基于卷积神经网络搭建的对抗网络

DCNN（首次采用此结构）：
- 生成器：反卷积神经网络
- 鉴别器：多层卷积网络
pix2pix、cycleGAN

3.2自动编码网络

VAE-GAN
- 用鉴别器Ｄ来表示VAE的重构损失
Bi-GAN
- Encoder-Decoder结构实现生成器

3.3论文外内容补充

3.3.1变分自编码器VAE

传统的自编码器
变分自编码器
- 将给定输入的每个潜在特征表示为概率分布。当从潜在状态解码时，将从每个潜在状态分布中随机采样，生成一个向量作为解码器模型的输入
变分自编码器的结构

一个用于原始输入数据的变分推断，生成隐变量的变分概率分布，称为推断网络；
另一个根据生成的隐变量变分概率分布，还原生成原始数据的近似概率分布，称为生成网络。

4.训练GAN存在的问题以及应对策略

理论方面
- 梯度消失的问题
  - 原因：采用KL散度或者是JSD度量差异，这种度量方式可能会饱和。
  - 解决方法：采用替代损失函数的方法来改善梯度消失问题
    - WassersteinGAN：EM距离来替代标准GAN中的JSD
    - LSGAN：是使用均方损失替代标准GAN中的对数损失
- 模式崩溃问题
  - 原因：KL散度的不对称性使得对抗网络宁可丧失生成器生成模式的多性，也不愿丧失鉴别器的准确性。
  - 解决方法：
    - GRAGAN：采用梯度惩罚的方式来避免GAN的博弈的一个局部平衡的状态。
    - Uncontroll GANS：在更新参数的时候不是仅仅用当前的梯度值，而且是用前几次梯度值的加权和来对当前的参数值进行更新。
    - Pac-GAN：将多个属于同类的样本进行打包，然后传递给鉴别器，来减少模式崩溃现象的发生
    - STAR-GAN：集成的方法，先独立地训练GAN对局部GAN，然后基于局部GAN去训练全局GAN，从而保证全局GAN生成模式的多样性。
实践方面
- 对生成器生成图像评估方式没有统一的标准

二、基于GAN的图像生成的一般方法

在这里插入图片描述

1.直接法

只有一个生成器和一个鉴别器，生成器直接学习个逼近真实数据分布的分布，从学习到的分布中采样来生成样本。

2.集成法

把视觉任务分成几个部分，然后每一个GAN去完成视觉任务的一部分

三、基于随机向量生成图像

将一个服从某一分布的随机向量映射为采样于服从某一分布的图像

1.基于互信息的图像生成：Info-GAN

人为地将输入向量限制为随机噪声向量和隐向量两个部分，这些向量服从于某一先验的连续的或者离散概率分布，用以表示生成数据的不同特征维度
加入互信息正则化约束（互信息：度量一个随机变量中包含关于另一个随机变量的信息量）

2.基于注意力机制的图像生成：self-Attention GAN

自注意力机制
- 单位大小卷积核对特征向量做处理
- 获取注意力权值
- 注意力特征映射
  
  -带注意力机制的特征映射

3.基于单幅图像做图像生成：Sin-GAN

使用的训练样本是单幅图像不同尺度下采样的图像，而不是数据集中的整个图像样本

四、基于图像转换生成图像

1.基于有监督方式的图像转换

pix2pix：将一种类型的图像转换到另一种类型
pix2pixHD:在 pix2pix基础上，基于实例分割图像
PLDT：在对抗网络的基础上增加一个用来判断来自不同区域的图像的图像对是否相关的鉴别器来实现有监督的图像到图像转换

2.基于无监督方式的图像转换

2.1基于自重损失的图像转换：Cycle-GAN、Dual-GAN

2.1.1Cycle-GAN

两个生成器：Gxy、Gyx
两个鉴别器：Dxy、Dyx
两个域：X、Y
两个对抗网络的损失函数
模型自重重构损失是通过最小化重构误差实现
Cycle-GAN的损失函数
最终目标：优化此函数

2.1.2 Dual-GAN

目标函数改用最小二乘损失函数，能减缓梯度消失问题
训练更新鉴别器参数的时候不仅仅用当前前生成器生成的图像，而且还会用到以前生成器生成的图像：缓解模式崩溃问题。

2.2基于辅助分类器的图像转换

在GAN隐藏层加入更多网络结构，在目标函数相应的约束项：提高生成图像的质量与多样性

2.2.1ACGAN

会对输入图像的类别做一个预测，鉴别器会给出域概率分布和类标签概率分布

2.3 基于特征分离的图像转换：DRIT

在隐空间中将图像的内容和属性分别学习，然后将图像的属性和内容任意结合来生成带有期望属性的图像

五、生成图像质量的定量评估方法

1.Inception Score

使用预先训练的Inception V3网络
- 输入生成的图像x，x越好，条件概率分布P(y|x）熵越低
- 图像具有多样性，边缘分布熵越高
IS计算

2.Frechet Inception Distance

Inception网络的卷积特征层作为一个特征函数
用特征函数将真实数据分布和生成数据分布建模为两个多元高斯随机变量
计算多元高斯分布的均值和方差
生成图像的质量：两个高斯分布发Frechet距离

3.ModeScore

在这里插入图片描述

真实数据分布中样本的边缘标签分布

4. 1-最近邻

六、总结

根据对本论文的学习总结出需要继续学习的内容

Info-GAN
Self-Attention GAN
SIn-GAN
Pix2Pix
Cycle-GAN
Dual-GAN
ACGAN
D2GAN
DRIT
Star-GAN

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。