DPE Disentanglement of Pose and Expression for General Video Portrait Editing

论文随记|DPE :Disentanglement of Pose and Expression for General Video Portrait Editing解耦一般视频人像编辑的姿势和表情


引文

​ 这篇文章提出了一种新颖的自监督解耦框架来解耦姿势和表情,无需使用3DMM。框架有一个动作编辑模块、一个姿势生成器和一个表情生成器。编辑模块将面部投影到潜在空间中,其中潜在代码中耦合的姿势和表情运动可以通过网络来解开。然后,可以通过直接将源面部的潜在代码与驱动面部的解开的姿势或表情运动代码相加来执行姿势或表情迁移。最后,两个生成器将修改后的潜在代码渲染为图像。

​ 重要的是,为了在没有配对数据的情况下完成解纠缠,本文引入了一种具有精心设计的约束的双向循环训练方法。

贡献
  1. 提出了一种自监督解缠框架,用于解耦姿势和表达以实现独立运动传输,而无需使用 3DMM 和配对数据。
  2. 提出了一种具有精心设计的约束的双向循环训练策略,以实现姿势和表情的解耦。
  3. 方法可以独立控制姿势或表情,并且可以用于一般的视频编辑。
方法

​ 模型包含三个可学习组件,即运动编辑模块、表情生成器和姿势生成器。

模型架构
  • 运动编辑

image-20231021215920313

​ 给定源图像、驱动图像和编辑指示符,运动编辑模块产生编辑后的潜在编码和源图像的多尺度特征图。该指示器指示要编辑的源图像的姿势或表情。在模块内部,编码器用于将输入图像投影到潜在空间

image-20231021214533929

​ 对于接受驱动图像的运动编码器,没有使用单独的编码器,而是根据编码器的潜在空间构建运动空间。具体来说,使用多个多重感知器(MLP)层将编码器的潜在空间分解为两个正交子空间,即姿势运动(p)空间和表情运动(e)空间。解缠结模块的架构是,前几个 MLP 层充当共享主干,后面是两个同样由 MLP 层组成的头。

image-20231021214429930

运动编辑实现: 使用一个二进制的指示器实现表情或姿势的编辑。当 O =pose 时,仅将姿势运动传输到源图像。当O = exp时,表情被转移。例如,表达式编辑可以定义为:

image-20231021215837529

姿势编辑,即 cp = c + p。

让M表示运动编辑模块。整个过程可以定义为:

image-20231021215944493

其中 F = {Fk}K 表示从编码器提取的源图像的特征图。

  • 姿势和表情生成器

image-20231022181011284

​ 表情生成器 Ge 和姿势生成器 Gp 。这两个生成器具有相同的架构但参数不同。通过添加驱动图像的姿势或表情动作,在潜在空间中编辑源图像的姿势或表情。

​ 使用流场来操作特征图。用潜在代码生成多尺度流场,用于扭曲运动编辑模块中编码器的特征图。扭曲的特征图被聚合以渲染图像。表达式生成器可以定义为:

image-20231022181830045

双向循环训练策略

image-20231022182229208

​ 如图所示,该流程通过从视频中提取两帧作为输入,独立按顺序编辑表情和姿势,在流程末端和中间提供监督。

​ 文中通过举一个矩形缩小的例子,来说明对于表情和姿势生成器的训练需要加上一定的约束,否则不能将两种信息进行解耦合。阐述了提出双向循环训练策略的原因。

​ 训练策略的转移公式表达如下:

image-20231022193003212

image-20231022193015561

S‘是表情转移的结果,S’‘是姿势转移的结果,同样也可以表示D’和D’‘;

  • 完全解耦合表情与姿势

三组成对约束:

​ 设计一组用于解耦合的约束,如图三所示的三条虚线所一一对应的元组,即<S,D’‘>、<D,S’‘>和<S’,D‘>。虽然<S’,D‘>可以约束中间结果并缩小解空间,但是仍不足以解耦合,中间结果甚至不是人脸。

自重构:

​ 作者发现两个生成器的自重构是解开纠缠的核心,即<S,e(S,S)>和<S,p(S,S)>对,可以驱动生成器输出有意义的面部,并且鼓励编辑模块提取准确的姿势和表情。否则输入和输出始终不相同,并且成对的图像间也会存在距离。

​ 作者认为,姿势迁移比表情迁移更容易实现,因此在计算<S’,D‘>的损失时截断姿势生成器的梯度以构造非对称反向传播,即此损失不用于更新姿势生成器。

损失函数
  • 重建损失 Lc:三对图像之中的误差

image-20231022195802080

  • 感知损失 Lp:这三对以及两对自重建对

image-20231022200022087

  • 表情损失 Le:利用表情识别网络来获取特征向量,最小化真实图像和中间合成图像的特征向量之间的距离。

image-20231022204541024

  • GAN 损失 LG:

image-20231022204650202

  • 总目标函数:

image-20231022204834167

实验
解耦视频肖像编辑
  • 定性比较: 主要和开源的PIRender 和 StyleHEAT进行对比,证明其模型性能较优。

image-20231022205905703

  • 定量比较:

image-20231022210221122

此方法的

优势:

  1. 能够更好的捕获嘴巴运动
  2. 能够更好的保留源图像身份,受驱动图像影响较少

劣势:

相比与使用了3DMM的PIRender,在姿态保留方面的表现稍差。作者分析原因是3DMM可以比较准确地表达姿势,并且拥有在大型数据集上训练的优势。

One-shot Talking Face Generation

​ 与其他几种sota的编辑姿势和表情的方法进行比较。

image-20231022213842294

image-20231022213852670

消融实验
  • 优化: 在所有模块联合训练后对表达式生成器进行微调,结果如图。

image-20231022214209814

  • 自重建: 前文3.2已经讲过自重建具有能够鼓励生成器生成有意义的人脸的作用,实验展示了这部分约束的作用。整个框架在没有约束的情况下很难训练,并且无法生成有意义的面孔。

image-20231022214607397

结论
  • 自重建: 前文3.2已经讲过自重建具有能够鼓励生成器生成有意义的人脸的作用,实验展示了这部分约束的作用。整个框架在没有约束的情况下很难训练,并且无法生成有意义的面孔。

[外链图片转存中…(img-Crzspd2N-1698202786176)]

结论

​ 作者提出了一种自监督解耦框架,无需 3DMM 和配对数据即可解耦姿势和表情。借助可编辑潜在空间,可以将姿势运动和表情运动分开,可以通过附加操作方便地在该空间中执行姿势或表情转移。它可以独立控制姿势和表情,并且在模型的帮助下在面部表情细节方面优于 3DMM。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值