A Style-Based GAN Encoder for High Fidelity Reconstruction of Images and Videos--论文笔记

A Style-Based GAN Encoder for High Fidelity Reconstruction of Images and Videos

在这里插入图片描述

简介

作者设计了一种新的encode模型框架,不同于以往的encoder只为GAN提供一个latent code,作者所设计的encoder有两条分支的输出,第一条和以往的encode模型一样提供latent code,另一条分支提供feature tensor。作者提到,这个feature tensor是GAN能生成高质量图片/视频的关键。大量的实验证明作者所提出的框架在多个数据集上面达到了SOTA效果。


阅读笔记

引言

大量的工作证明了GAN在图像生成领域的巨大影响力。而GAN是基于一个概率分布来进行图片数据的生成的,如何将图片很好地映射到这个概率分布上面是GAN能否准确重建图片的关键所在(特别是对于真实图片数据)。近期的部分工作涉及到通过latent code来进行语义信息的修改,但效果均不是很好,缺乏一个高效准确的encode将图片映射为latent code从而保证后续操作的准确性。

预训练的GAN

预训练的GAN模型主要分为两个流派:1.optimization-based methods – 利用梯度下降来对latent space进行优化,找到重建损失最小的latent code进行使用。 2.encoder-based methods --先训练一个网络将图片从image space映射到 latent spcae,再利用训练好的生成器进行图片的生成。前者有两个缺陷:

  • 优化得到latent code并不存在图片的space里面 。
  • 每一张图片都需要计算其合适的latent code,耗时不讨好。

当前的encode只为生成器提供latent code,latent code为每一层的生成器提供了全局信息,这就会导致生成结果过于平滑,缺乏空间细粒度的信息,一些基于optimization-based 尝试为生成器提供具有空间信息的feature tensor,当基于optimization的方法不可避免的需要大量的计算资源。

StyleGAN的优势与不足

传统的GAN的latent code的输入是只从输入层进行输入的,而StyleGAN采用了多尺度输入,StyleGAN的生成器有18层,每一层都会输入一个latent code来引导图片的生成,这是StyleGAN具有强大生成能力的关键,近期的大部分工作也是基于StyleGAN来做的。styleGAN优于GAN的关键是latent code的分离,在每一层都注入latent code来引导图片的生成,但latent code并不具备空间信息,在每一层中的维度一般为[1,512]。如果能将人人脸的空间信息引入到StyleGAN中,模型就可以生成更为细致准确的人脸。

Encoder输出feature tensor

作者提出一个全新的框架,训练一个encoder为生成器提供latent code 和feature tensor,达到了很好的生成效果,并且可以在重建能力与编辑能力之间做到权衡。

encoder输出latent code和feature tensor

latent code和feature tensor的获取:所提出的encoder是以ResNet作为backbone的,将ResNet每一个Block的输出都经过一个池化层控制到同一个尺寸,并将所有池化后的特征在通道数上进行concat,在分别经过18个MLP得到latent code ~[18, 512]。在将第三个Block的输出经过几层卷积得到feature tensor。

生成器注入latent code和feature tensor

latent code和feature tensor的插入:latent code的插入与大部分工作的方法一样,采用AdaIN算法学习一个均值和方差来控制生成图片的风格信息。对于Feature tensor的插入,作者将feature tensor插入到生成器的某一层(k),采用加权求和的方式来决定从feature tensor 或 k层的输出中获取多少信息。另一种方式是直接忽略k层之前的特征信息,直接从第k层(feature tensor 插入的那一层)进行生成,但这样做会不利于图像编辑等操作。

图像编辑操作

图像编辑:对encoder后的latent code,利用所需的语义信息进行线性插值,得到new latent code,将latent code和new latent code分别经过生成器,取第k层的输出(对应feature tensor插入那一层),二者做差再与feature tensor进行相加,得到新的Feature tensor,利用new latent code和Feature tensor进行图像重建编辑操作。
在这里插入图片描述


实验结果

Inversion

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


latent space editing

在这里插入图片描述


Style Mixing

在这里插入图片描述

欢迎大家指正,大家一起交流学习~~~

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值