PTI:通过枢轴完成人脸投影

在这里插入图片描述
paper

PTI: Pivotal Tuning for Latent-based Editing of Real Images

  • 2022 ACM TOG
  • StyleGan 人脸编辑相关
  • 人脸投影

paper code


在StyleGAN中,编辑图像前,必须首先将图像投影到latent space,然后事实证明,StyleGAN的latent space在失真和可编辑性之间存在固有平衡,即图像在近似保持原始外观的情况下存在一定令人信服的可编辑性。实际上,生成器域外的图像在保留面部ID信息的情况下完成图像编辑仍然十分困难,在本文中,我们提出了一种弥补这个差距的方法。我们的方法稍微训练了生成器,以便域外图像更真实地投影到latent space。同时,将初始投影latent code充当枢轴,围绕它微调生成器,利用一个正则化项保证其身份。这种训练过程最终会使投影更加真实准确、而不影响可编辑能力。最后我们验证了方法地准确性和先进性,同时针对多种图像完成编辑展现了我们的技术。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AHm6qMRk-1653984307399)(C:\Users\Ericam\Desktop\PTI.assets\image-20220531111116295.png)]


Introduction

由于StyleGAN训练成本非常高,而且pretrained model实现了前所未有的视觉质量,所以流行的方法是冻结生成器。相比之下,我们微调生成器使其适应所需的输入图像,方法包括两个主要步骤:

(1)首先利用现有的反演方法将图像投影为可编辑的latent code

(2)利用Priotal Tuning – 微调pretrained stylegan,使用上一步找到的枢轴 (latent code)来生成图像。

关键的想法:即使生成器微调,但latent code仍然可以保持其编辑质量。我们的实验表明,微调后的生成器保留了枢轴代码的编辑能力,同时实现了前所未有的重构质量。

Method

由于StyleGan具有解耦性质,轻微和局部的调整可以使其生成效果完成更改、而不会破坏其强大的编辑能力。因此,针对给定的图像(可能在外观方面的分布是不满足要求的),我们建议在生成器域内找到其最近的可编辑点,然后将这个关键点拉向目标,对其附近影响很小。如此在满足人物的相似度的同时确保了可编辑能力。

在这里插入图片描述

1. Inversion

投影(反演)的目的是为Pivotal Tuning寻找到一个起点。由于StyleGan的原生latent space w具有最佳的可编辑性,同时在Pivotal Tuning期间的失真较少,我们选择了将图像inversion到w空间,而不是目前主流使用的w+空间。我们使用了现成的反演方法,本质上,通过LPIPS 感知损失函数,直接优化latent code w 和噪声向量 n来重建输入图像 x,使用噪声优化正则化项显着改善了反演质量【因为噪声正则化避免了噪声向量中包含重要信息】。 这意味着一旦 $ w_{p} $ 已经确定后,n 值在最终的视觉外观中起次要作用。优化定义如下:
w p , n = a r g   m i n L L P I P S ( x , G ( w , n ; θ ) ) + λ n L n ( n ) θ : 权 重    L n : 噪 声 正 则 化 项 w_{p},n = arg\ min \mathcal{L}_{LPIPS}(x,G(w,n;\theta))+\lambda_{n}\mathcal{L}_{n}(n) \\ \theta : 权重 \ \ \mathcal{L}_{n}:噪声正则化项 wp,n=arg minLLPIPS(x,G(w,n;θ))+λnLn(n)θ:  Ln:

2.Pivotal Tuning

应用在反演中获得的潜码 w,生成与原始图像 x 相似的图像,但可能表现出明显的失真。 因此,在第二步中,我们解冻生成器并微调使其重建输入图像 x。使用枢轴代码至关重要,因为使用随机或平均潜码会导致收敛失败。训练损失函数如下:
L p t = L L P I P S ( x , x p ) + λ L 2 L L 2 ( x , x p ) x p : 微 调 后 生 成 图 像 \mathcal{L}_{pt} = \mathcal{L}_{LPIPS}(x, x^p) + λ_{L2}\mathcal{L}_{L2}(x, x^p) \\ x^p : 微调后生成图像 Lpt=LLPIPS(x,xp)+λL2LL2(x,xp)xp:
当生成器fintune完成后,我们可以使用任何latent space编辑工具来编辑输入图像。

3. Locality Regularization(局部正则化)

通过pivotal tuning可以提高生成器重构输入图像的精度,甚至可以围绕它进行成功的编辑。但它也会产生连锁反应:由non-local latent code生成的图像视觉质量收到破坏(当针对多个身份信息finetune时特别容易出现)

为了缓解这个问题,我们引入了一个正则化项,即将PTI的更改限制在latent space中的local空间。在每次迭代中,我们随机采样一个正态分布的随机向量z,通过mapping network产生相应的潜在latent code wz,然后通过插值参数a完成wz和wp之间的插值。
w r = w p + α w z − w p ∥ w z − w p ∥ 2 w_{r}=w_{p}+\alpha \frac{w_{z}-w_{p}}{\left\|w_{z}-w_{p}\right\|_{2}} wr=wp+αwzwp2wzwp
将新生成的wr送入生成器,通过2中所描述的loss function优化生成器,完成局部正则化。

在这里插入图片描述
在这里插入图片描述

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值