pixel2style2pixel(pSp)实现解读【一】 -- 理论层面

在这里插入图片描述

前言

pixel2stylepixel是人脸编辑中比较重要的encoder方法,这里针对理论部分作简要记录。
代码解读部分见here
论文
Code

介绍

stylegan可以随机生成图片(人脸、动漫、汽车等),通过MLP实现了一个从离散的潜空间到人脸图像的可控、可编辑的人脸生成器。但是当我们想对真实世界的人脸图像进行人脸编辑时,需要首先把图像投射到latent space里生成latent code,然后再通过stylegan进行重建,但多数情况下,重建的结果很差、同时耗时很大。

同时,许多方法选择将图像编码到w空间生成latent code(512*1),然后再利用stylegan来生成,但事实证明将真实图像反转为512维的向量w∈W并不能导致准确的重建。

基于以上背景,psp应运而生:

  • 将真实图像投射到extented latent space w+ (18 * 512 * 1)[18个不同的512维度w向量]
  • 基于特征金字塔网络结构,从不同的金字塔尺度中提取风格向量,并根据其空间尺度直接insert into fixed 、pretrained Stylegan generator中
  • 可以直接将图像重建,避免耗时的优化过程

创新点

  • 一个能直接编码真实图像到latent space w+的的styleGAN编码器

  • 一个通用的解决image2image的端到端框架

    之前的方法都是直接拿了残差模块后输出的特征来塞到styleGAN里,这造成了很大的定位偏差(locality bias)。我们的方案是直接把styles送到styleGAN里去而不加入其他的spatial输入。这个方法尤其在人脸正面化方面取得了较大的优势,可以完全以无监督的方式来进行。其次是对中间style表征的支持使得我们可以用于许多人脸相关的任务,比如超分、分割图人脸生成等。

psp结构

请添加图片描述
传统而直接的方案是直接使用encoder最后一层的512维向量直接repeat18次 【这会导致编码生成地很随意,表征不够丰富,生成缺乏细节】。

stylegan中提出了在sythesis网络中不同level的latent code实际代表了不同层次的特征,大致可以分为三组coarse、medium和fine。借鉴了该思路,psp在模型结构中使用FPN(特征金字塔网络结构)来实现encoder,生成了三种不同level的特征,然后利用全连接层来生成latent code。

作者也尝试使用了其他的思路,比如直接从最大的特征图里生成所有的style编码可以取得相似的效果,但是会影响模型大小。另一个极端是从最小的特征图生成所有的编码,在保证维度足够的情况下
也能保证性能稳定。

Loss Functions

encoder使用了几个目标的加权组合来训练:

利用了像素级别的L2损失函数,其中psp(x)就是最后网络的输出(encoder+stylegan后)
L 2 ( x ) = ∣ x − p S p ( x ) ∣ 2 \mathcal{L}_{2}(\mathbf{x})=|\mathbf{x}-p S p(\mathbf{x})|_{2} L2(x)=xpSp(x)2
为了保证感知相似度,使用了LPIPS损失
L LPIPS  ( x ) = ∣ F ( x ) − F ( p S p ( x ) ) ∣ 2 \mathcal{L}_{\text {LPIPS }}(\mathbf{x})=|F(\mathbf{x})-F(p S p(\mathbf{x}))|_{2} LLPIPS (x)=F(x)F(pSp(x))2
为了保证输入输出尽可能是人脸,引入了一个人脸识别相关的损失
$$

\left.\mathcal{L}_{\mathrm{ID}}(\mathbf{x})=1-\langle R(\mathbf{x}), R(p S p(\mathbf{x})))\right\rangle

$$
在这里采用了ArcFace作为人脸编码网络,输入会被crop和resize到112 * 112输入

最终,损失函数为:
L ( x ) = λ 1 L 2 ( x ) + λ 2 L L P I P S ( x ) + λ 3 L I D ( x ) + λ 4 L r e g ( x ) L(x) = λ1L2(x) + λ2LLPIPS(x) + λ3LID(x) + λ4Lreg(x) L(x)=λ1L2(x)+λ2LLPIPS(x)+λ3LID(x)+λ4Lreg(x)

The Benifits of the StyleGAN Domain

在这里插入图片描述

前人的工作就有指出,styleGAN学习到的针对语义物体的分离是通过分层地表征来实现的,这就引入了第二个我们想要的东西:多模态数据生成

将图片通过encoder生成latent code (18 * 512 * 1),然后在style mixing网络内1~7层使用利用图片生成的latent code,剩下层里面送入随机latent code。

可以通过加入参数来控制两者的融合,在psp中是通过在coarse和medium层面上使用了encoder输出的styles,剩下的fine层面的特征使用了随机变量,保证我们输出的人是一个人,但是在细节上存在一些变化。

讨论

该方法被限制在由StyleGan生成的图像上,假如想要投射的真实世界图像在训练的Stylegan模型中并不存在案例,那么在通过psp encoder + stylegan生成便十分困难

由于psp考虑的是全局的一致性,对于细节的关注不足,所以存在一定程度上重建失败的例子

在这里插入图片描述

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: GAN(Generative Adversarial Network)是一种深度学习模型,在许多任务中都有广泛应用。在 GAN 中,有一个生成器和一个判别器。生成器尝试生成与真实数据类似的新数据,判别器则尝试区分生成的数据与真实数据。生成器和判别器通过对抗的方式共同训练。 Matlab-GAN 是一种基于 Matlab 的 GAN 实现,可以实现生成图片,视频等任务。在 Matlab-GAN 中,可以使用不同的损失函数和正则化技术,来改善生成的质量和稳定性。 除了 GAN,Pixel2Pixel 和 CycleGAN 也是常用的深度学习模型,在计算机视觉任务中具有重要的应用。Pixel2Pixel 是一种基于卷积神经网络的图像翻译模型,可以将一个图像转换为另一个图像,如将黑白图像转换为彩色图像。CycleGAN 是一种无需成对匹配的图像转换模型,可以用于跨域图像转换,如将马的图像转换为斑马的图像。 Matlab-GAN 支持 Pixel2Pixel 和 CycleGAN 的实现,可以帮助更方便地进行图像转换任务。Pixel2Pixel 和 CycleGAN 也可以与 GAN 结合使用,产生更高质量、更可控的生成结果。 总之,Matlab-GAN 是一种实现生成对抗网络的工具,支持不同类型的 GAN 和深度学习模型,可以实现图像、视频等多种任务。Pixel2Pixel 和 CycleGAN 作为深度学习模型中常用的工具,可以帮助更好地完成图像转换任务。 ### 回答2: GAN,即生成对抗网络,是近年来流行的一种机器学习算法模型,它可以通过两个深度神经网络模型(生成器和判别器)来生成具有类似于真实图像的虚拟图像。 在Matlab中,GAN也有自己的实现——matlab-gan。该实现提供了一系列的GAN示例,如最基础的MNIST手写数字图像生成、使用DCGAN和Wasserstein GAN生成图像,甚至还提供了Pix2Pix和CycleGAN,让用户能够在MATLAB环境中成功加载这些GAN应用。 Pix2Pix是基于条件对抗网络(CGAN)的扩展,它可以将给定的输入图像转换为输出图像。例如,它可以将黑白照片转换成彩色照片,或将景象翻译成抽象画作。该示例合成城市街景并将它们转换为艺术风格的图像。 CycleGAN是一种通用的无监督图像到图像转换器,它可以将两个域之间的图像转换成另一个域。例如,它可以将马的图像转换成斑马的图像。CycleGAN在图像风格转换、模型综合、目标转换等方面表现出色,是GAN的重要变种。 总体来说,matlab-gan是一个适合于GAN初学者的绝佳平台。它不仅提供了简单的GAN实现,还包括两个复杂的GAN变种——Pix2Pix和CycleGAN。这些示例不仅能够教授GAN的基础理论,还能够为研究者提供一个练习环境来测试并扩展这些算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值