PTI：通过枢轴完成人脸投影

最新推荐文章于 2025-03-11 21:44:47 发布

Ericam_

最新推荐文章于 2025-03-11 21:44:47 发布

阅读量2.3k

点赞数 5

分类专栏： Gan zoos🦓 文章标签： stylegan inversion

本文链接：https://blog.csdn.net/xjm850552586/article/details/125067833

版权

Gan zoos🦓 专栏收录该内容

8 篇文章

订阅专栏

在这里插入图片描述
paper

PTI: Pivotal Tuning for Latent-based Editing of Real Images

2022 ACM TOG
StyleGan 人脸编辑相关
人脸投影

paper code

在StyleGAN中，编辑图像前，必须首先将图像投影到latent space，然后事实证明，StyleGAN的latent space在失真和可编辑性之间存在固有平衡，即图像在近似保持原始外观的情况下存在一定令人信服的可编辑性。实际上，生成器域外的图像在保留面部ID信息的情况下完成图像编辑仍然十分困难，在本文中，我们提出了一种弥补这个差距的方法。我们的方法稍微训练了生成器，以便域外图像更真实地投影到latent space。同时，将初始投影latent code充当枢轴，围绕它微调生成器，利用一个正则化项保证其身份。这种训练过程最终会使投影更加真实准确、而不影响可编辑能力。最后我们验证了方法地准确性和先进性，同时针对多种图像完成编辑展现了我们的技术。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AHm6qMRk-1653984307399)(C:\Users\Ericam\Desktop\PTI.assets\image-20220531111116295.png)]$

Introduction

由于StyleGAN训练成本非常高，而且pretrained model实现了前所未有的视觉质量，所以流行的方法是冻结生成器。相比之下，我们微调生成器使其适应所需的输入图像，方法包括两个主要步骤：

（1）首先利用现有的反演方法将图像投影为可编辑的latent code

（2）利用Priotal Tuning – 微调pretrained stylegan，使用上一步找到的枢轴 (latent code)来生成图像。

关键的想法：即使生成器微调，但latent code仍然可以保持其编辑质量。我们的实验表明，微调后的生成器保留了枢轴代码的编辑能力，同时实现了前所未有的重构质量。

Method

由于StyleGan具有解耦性质，轻微和局部的调整可以使其生成效果完成更改、而不会破坏其强大的编辑能力。因此，针对给定的图像（可能在外观方面的分布是不满足要求的），我们建议在生成器域内找到其最近的可编辑点，然后将这个关键点拉向目标，对其附近影响很小。如此在满足人物的相似度的同时确保了可编辑能力。

在这里插入图片描述

1. Inversion

投影（反演）的目的是为Pivotal Tuning寻找到一个起点。由于StyleGan的原生latent space w具有最佳的可编辑性，同时在Pivotal Tuning期间的失真较少，我们选择了将图像inversion到w空间，而不是目前主流使用的w+空间。我们使用了现成的反演方法，本质上，通过LPIPS 感知损失函数，直接优化latent code w 和噪声向量 n来重建输入图像 x，使用噪声优化正则化项显着改善了反演质量【因为噪声正则化避免了噪声向量中包含重要信息】。这意味着一旦 $ w_{p} $ 已经确定后，n 值在最终的视觉外观中起次要作用。优化定义如下：
$w_{p},n = arg\ min \mathcal{L}_{LPIPS}(x,G(w,n;\theta))+\lambda_{n}\mathcal{L}_{n}(n) \\ \theta : 权重 \ \ \mathcal{L}_{n}:噪声正则化项$

2.Pivotal Tuning

应用在反演中获得的潜码 w，生成与原始图像 x 相似的图像，但可能表现出明显的失真。因此，在第二步中，我们解冻生成器并微调使其重建输入图像 x。使用枢轴代码至关重要，因为使用随机或平均潜码会导致收敛失败。训练损失函数如下：
$\mathcal{L}_{pt} = \mathcal{L}_{LPIPS}(x, x^p) + λ_{L2}\mathcal{L}_{L2}(x, x^p) \\ x^p : 微调后生成图像$
当生成器fintune完成后，我们可以使用任何latent space编辑工具来编辑输入图像。

3. Locality Regularization（局部正则化）

通过pivotal tuning可以提高生成器重构输入图像的精度，甚至可以围绕它进行成功的编辑。但它也会产生连锁反应：由non-local latent code生成的图像视觉质量收到破坏（当针对多个身份信息finetune时特别容易出现）

为了缓解这个问题，我们引入了一个正则化项，即将PTI的更改限制在latent space中的local空间。在每次迭代中，我们随机采样一个正态分布的随机向量z，通过mapping network产生相应的潜在latent code wz，然后通过插值参数a完成wz和wp之间的插值。
$w_{r}=w_{p}+\alpha \frac{w_{z}-w_{p}}{\left\|w_{z}-w_{p}\right\|_{2}}$
将新生成的wr送入生成器，通过2中所描述的loss function优化生成器，完成局部正则化。

在这里插入图片描述