论文随记|One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field基于可变形神经辐射场的o

论文随记|One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field基于可变形神经辐射场的one-shot高保真talking-head合成

贡献
  1. 介绍用于高保真和自由视角头部说话合成的 HiDe-NeRF。据我们所知,HiDe-NeRF 是第一个一次性且与主体无关的可变形神经辐射场
  2. 提出了多尺度广义外观模块(MGA)和轻量级表达感知变形模块(LED),以显着提高头部说话合成中身份和表达的保真度
  3. 提出的方法在捕获驱动运动和保留源身份信息方面可以产生比最先进的方法更真实的结果
相关工作

Deformable Neural Radiance Field(可变形神经辐射场)

“Deformable Neural Radiance Field”(可变形神经辐射场)是一个用于三维重建和渲染的计算机图形技术。这一技术的主要目标是从有限数量的二维图像或视频帧中重建出三维场景,并允许以各种角度和视点进行渲染,以实现逼真的三维效果。

Deformable Neural Radiance Field 基于神经辐射场(Neural Radiance Field,NeRF)方法,它引入了一些改进和可变形性。主要特点包括:

  1. 灵活的几何形状重建:传统的 NeRF 方法通常假定场景是静态的,而 Deformable Neural Radiance Field 允许对场景的几何形状进行变形。这意味着可以更好地处理动态或变化的场景。

  2. 视图依赖的变形:Deformable Neural Radiance Field 允许根据不同视点的图像来进行变形,以适应不同视角的观察。

  3. 神经网络的训练:这一方法使用深度学习技术,通过训练神经网络来估计场景中每个点的辐射强度,从而实现渲染。这使得生成逼真的三维渲染成为可能。

总之,Deformable Neural Radiance Field 是一种强大的技术,用于从二维图像中还原和渲染逼真的三维场景,尤其在动态场景和视角变化较大的情况下具有潜力。它结合了深度学习和计算机图形的方法,可以应用于虚拟现实、增强现实、电影制作和其他领域。

方法

image-20231020200134950

MGA(Multi-Scale Generalized Appearance Module)

​ 引入tri-plane representation(三平面表征)作为外观场,以适应主体不可知的属性。

​ 三平面混合表示,它用特征图构建三个正交平面。给定一个 3D 点 p,将其投影到 Fxy、Fxz、Fyz 三个平面上,以通过双线性插值查询特征向量,来自三个平面的查询特征被平均作为点F(p)=(Fxy(p)+ Fxz(p)+Fyz(p) )/3,其中Fij:R3 -> Rc,表示从平面特征图Fij中采样3D坐标的特征。

​ 从图像学习三平面表示的一个核心问题是相机坐标系和世界坐标系朝向不同的方向。三平面的定义基于世界坐标系,但图像的轴与相机坐标系对齐。由于这个问题,来自深度网络的预测体积特征{Vi,i ∈ 1, 2, 3},其中Vi∈Rcxhxw,与三平面的定义不匹配,这使得直接从图像中学习表示变得困难。因此,我们使用源相机参数 tRsrc、tsrcu 将预测的体积特征转换为三平面表示。具体来说,这种转换可以表述如下:

image-20231020204126251

T 表示相机到世界的变换函数和平面 Prxy、xz、yzs。

​ 提高三平面表示的表现力,我们采用多尺度三平面表示,它集成了不同层次的语义信息。如图2(a)所示,我们首先采用深度特征提取器从源图像Isrc中导出金字塔特征图[M0,…,Mn],对于最低分辨率的特征图 M0,使用小型卷积解码器 ψ0 来预测体积特征 V0,并通过应用式(1)中的相机到世界变换获得相应的最低尺度三平面表示 F0。 基于此,多尺度三平面表示形式为:

image-20231020204553855

k代表不同平面,其余分别表示卷积网络,上采样操作,第j层;

LED(Lightweight Expression-Aware Deformation Module, 轻量级表达感知变形模块)

image-20231020205021767

​ 我们提出了轻量级表情感知变形模块(LED),它在变形预测中显式解耦表情和姿势,显著提高了表情保真度。此外,表情和姿势的解耦确保了自由视图渲染的表情一致性。如图 3 所示,LED 可以分为三个步骤:

image-20231020220315964

  1. 表情编码:首先,我们引入形状和表情感知坐标代码(SECC)来学习与姿势无关的表情变形,以实现精确的表情操作。 SECC 是通过 Z 缓冲区渲染 3DMM 脸并使用归一化坐标代码 (NCC) 作为其颜色图来获得的。它可以表述为

    image-20231020221325003

    如图3所示,使用一对SECC来模拟从驱动到规定的形状感知表情变化。使用3D Estimator从驱动图像和源图像预测表达系数z,并使用一系列z去形成驱动SECC(三通道图像)。由于NCC中每个点的rgb值对应于特定网格顶点的xyz坐标,因此它建立了3D和2D之间的顶点到像素的对应关系。因此,我们直接在成对的 SECC 上应用 2D 卷积编码器来学习包含 3D 表达变形的潜在表达嵌入。

  2. 位置编码: 为了学习观察视图(可以是驱动图像视图或任意视图)下的逐点变形,我们将从射线采样的点的 3D 坐标编码为位置条件。具体来说,我们首先将点 image-20231020221914600 重塑为 image-20231020221936202,其中 N 是沿每条射线的采样点数量,H 和 W 表示渲染分辨率。然后将其输入全卷积位置编码器以获得潜在位置嵌入。

  3. 变形预测:潜在表达嵌入和潜在位置嵌入按通道连接并输入变形解码器以预测点级变形image-20231020222130460。对于由 Φ 参数化的变形模块,隐式函数可以表示为:

image-20231020222238096

总结:

​ LED 采用顶点到像素对应和位置编码来学习逐点 3D 变形。它既轻量又高效,因为它不需要为每个采样点找到最近的驱动网格顶点并显式计算其与相应规范网格顶点的距离。此外,LED 中的编码器和解码器网络是完全卷积的且非常浅,因此在计算上比其他基于 MLP 的变形场要高效得多 。

Image Generation Module(图像生成模块)

Volume Rendering:

​ 根据相机内置参数和驱动图像的机位姿势,计算像素坐标(h,w)的试图方向d。沿着射线方向分层采样,得到image-20231020225903130,对于每个点pi首先利用位置编码γ,并在变形点pi‘=pi+Δpi处从多尺度三平面采样体积特征F(pi’),然后将上述两者连接并输入到两层MLP中以预测点pi的颜色c和密度 σ。 image-20231020231240057

image-20231020231048277

Texture Refinement(纹理细化):

​ 设计了一个具有编码器-解码器结构的细化网络 Grf 来改进它们并生成最终图像 Irf,使用身份提取器 Eid 从源图像中提取多尺度纹理特征,并通过 SPADE 将它们注入到 Grf 的解码器中。值得注意的是,Irf 和 Iraw 被输入两个单独的判别器进行对抗训练。

实验和结果

新参数AVD: 将生成的面部和源面部之间的网格顶点距离计算为AVD-s,并且合成人脸和驾驶人脸之间的关系作为 AVD-d。

talking-head合成

​ 作者关于提出的新模型,与基于2D和3D的方法都进行了对比,还在分别使用同一身份和跨身份的情况下,进行了实验对比,验证了其模型的性能。结果可见原文中表如下:

image-20231021143431867

image-20231021143628669

自由视角合成

​ 即用不同的视角渲染生成的结果

image-20231021143939044

image-20231021144016997

消融实验

​ 对提出的 MGA 和 LED 进行了消融实验。对 MGA,用单尺度三平面表示(无多尺度)替换了提出的多尺度三平面表示。还通过弃用相机来测试相机对世界变换的有效性。关于 LED,部署了一个位姿耦合 SECC(无 SECC)。

image-20231021144416996

多尺度三平面表示的有效性: 多尺度表示带来了有关身份(CSIM增加0.062)和表达细节(AUCON增加0.065)的更精细的特征,但头部方向(PRMSE)没有显着改善。

解耦姿势的有效性: 如表所示。将姿势与其他信息耦合将对身份保留(CSIM下降0.074,AVD增加0.006)和表达精确性(AUCON下降0.038)有害。SECC模块有利于头部说话生成的保真度。

结论

​ 本文提出了一个用于高保真和自由视角头部说话合成的HiDe-NeRF模型。HiDe-NeRF 从一张源图像中学习多尺度神经辐射场以保留身份信息,并使用表情感知变形场来建模局部非刚性表情。消融研究清楚地表明,所提出的模块有利于两张面部之间的运动传递。方法可以在多个基准数据集上实现最先进的合成质量。此外,通过替换表情感知变形模块的输入,模型可以轻松应用于其他模态驱动(音频、文本等)的头部说话合成

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值