A Style-Based GAN Encoder for High Fidelity Reconstruction of Images and Videos--论文笔记

最新推荐文章于 2024-10-03 14:54:57 发布

JM-0808

最新推荐文章于 2024-10-03 14:54:57 发布

阅读量178

点赞数 1

分类专栏：论文阅读笔记文章标签：生成对抗网络人工智能深度学习

本文链接：https://blog.csdn.net/weixin_56033928/article/details/131213506

版权

论文阅读笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

A Style-Based GAN Encoder for High Fidelity Reconstruction of Images and Videos

在这里插入图片描述

简介

作者设计了一种新的encode模型框架，不同于以往的encoder只为GAN提供一个latent code，作者所设计的encoder有两条分支的输出，第一条和以往的encode模型一样提供latent code，另一条分支提供feature tensor。作者提到，这个feature tensor是GAN能生成高质量图片/视频的关键。大量的实验证明作者所提出的框架在多个数据集上面达到了SOTA效果。

阅读笔记

引言

大量的工作证明了GAN在图像生成领域的巨大影响力。而GAN是基于一个概率分布来进行图片数据的生成的，如何将图片很好地映射到这个概率分布上面是GAN能否准确重建图片的关键所在（特别是对于真实图片数据）。近期的部分工作涉及到通过latent code来进行语义信息的修改，但效果均不是很好，缺乏一个高效准确的encode将图片映射为latent code从而保证后续操作的准确性。

预训练的GAN

预训练的GAN模型主要分为两个流派：1.optimization-based methods – 利用梯度下降来对latent space进行优化，找到重建损失最小的latent code进行使用。 2.encoder-based methods --先训练一个网络将图片从image space映射到 latent spcae，再利用训练好的生成器进行图片的生成。前者有两个缺陷：

优化得到latent code并不存在图片的space里面。
每一张图片都需要计算其合适的latent code，耗时不讨好。

当前的encode只为生成器提供latent code，latent code为每一层的生成器提供了全局信息，这就会导致生成结果过于平滑，缺乏空间细粒度的信息，一些基于optimization-based 尝试为生成器提供具有空间信息的feature tensor，当基于optimization的方法不可避免的需要大量的计算资源。

StyleGAN的优势与不足

传统的GAN的latent code的输入是只从输入层进行输入的，而StyleGAN采用了多尺度输入，StyleGAN的生成器有18层，每一层都会输入一个latent code来引导图片的生成，这是StyleGAN具有强大生成能力的关键，近期的大部分工作也是基于StyleGAN来做的。styleGAN优于GAN的关键是latent code的分离，在每一层都注入latent code来引导图片的生成，但latent code并不具备空间信息，在每一层中的维度一般为[1,512]。如果能将人人脸的空间信息引入到StyleGAN中，模型就可以生成更为细致准确的人脸。

Encoder输出feature tensor

作者提出一个全新的框架，训练一个encoder为生成器提供latent code 和feature tensor，达到了很好的生成效果，并且可以在重建能力与编辑能力之间做到权衡。

encoder输出latent code和feature tensor

latent code和feature tensor的获取：所提出的encoder是以ResNet作为backbone的，将ResNet每一个Block的输出都经过一个池化层控制到同一个尺寸，并将所有池化后的特征在通道数上进行concat，在分别经过18个MLP得到latent code ～[18, 512]。在将第三个Block的输出经过几层卷积得到feature tensor。

生成器注入latent code和feature tensor

latent code和feature tensor的插入：latent code的插入与大部分工作的方法一样，采用AdaIN算法学习一个均值和方差来控制生成图片的风格信息。对于Feature tensor的插入，作者将feature tensor插入到生成器的某一层（k），采用加权求和的方式来决定从feature tensor 或 k层的输出中获取多少信息。另一种方式是直接忽略k层之前的特征信息，直接从第k层（feature tensor 插入的那一层）进行生成，但这样做会不利于图像编辑等操作。

图像编辑操作

图像编辑：对encoder后的latent code，利用所需的语义信息进行线性插值，得到new latent code，将latent code和new latent code分别经过生成器，取第k层的输出（对应feature tensor插入那一层），二者做差再与feature tensor进行相加，得到新的Feature tensor，利用new latent code和Feature tensor进行图像重建编辑操作。
在这里插入图片描述