39、HumanNeRF

最新推荐文章于 2024-05-25 09:52:54 发布

C--G

最新推荐文章于 2024-05-25 09:52:54 发布

阅读量1.2k

点赞数 2

分类专栏： # 3D重建文章标签：人工智能计算机视觉算法

本文链接：https://blog.csdn.net/weixin_50973728/article/details/126719194

版权

3D重建专栏收录该内容

113 篇文章 86 订阅

订阅专栏

简介

主页：https://grail.cs.washington.edu/projects/humannerf/
在这里插入图片描述
一种自由视点渲染方法——HumanNeRF——它适用于人类执行复杂身体运动的给定单目视频，例如来自 YouTube 的视频。其可以在任何帧暂停视频并从任意新的摄像机视点甚至是针对该特定帧和身体姿势的完整 360 度摄像机路径渲染主体。这项任务特别具有挑战性，因为它需要合成身体的逼真细节，从输入视频中可能不存在的各种摄像机角度看，以及合成精细的细节，如布料褶皱和面部外观。该方法优化了典型 T 姿势中人的体积表示，与运动场相一致，该运动场通过向后扭曲将估计的规范表示映射到视频的每一帧。运动场被分解为由深度网络产生的骨骼刚性和非刚性运动。论文展示了与先前工作相比的显着性能改进，以及在具有挑战性的不受控制的捕获场景中移动人类的单目视频的自由视点渲染示例

实现流程

在这里插入图片描述
以视频帧为输入，优化正则外观，表示为连续场，以及从观测到正则空间的运动场映射。将运动场分解为骨架刚体运动和非刚体运动，分别表示为离散网格和连续场。还使用现成的身体姿态估计器对身体姿态进行了初始化，从而获得更好的对齐效果。在观测空间的体绘制和输入图像之间施加了一个损失，引导优化到一个解决方案。

使用典型的外观体积 F_c 弯曲到观察到的姿势，以产生输出外观体积 F_o，表示一个移动的人
在这里插入图片描述

F_c: x→(c， σ) 将位置 x 映射到颜色 c 和密度 σ

T: (x_o, p)→x_c 定义了一个运动场，在观察位姿 p = (J， Ω) 的引导下，将点从观察空间映射回标准空间，其中 J 包括 K 个标准3D关节位置，Ω = {w_i} 是用轴角向量 w_i 表示的局部关节旋转

将运动场分解为两部分来处理带有复杂变形的复杂人体运动
在这里插入图片描述

其中 T_skel 表示骨骼驱动的变形，本质上是逆(体积)线性混合skinning，T_NR 从骨骼驱动的变形开始，并产生一个与之对应的 ∆x 偏移量

T_skel提供了由标准skinning驱动的粗变形，而T_NR提供了更多的非刚性效应，例如由于服装变形

在室外场景，增加使用现成的3D身体+相机姿态估计器

由于位姿估计不准确，增加一个位姿修正函数 P_pose§ ，可以更好地解释观测结果，并将这种改进应用于骨骼驱动的变形，即将公式2中的 T_skel(x, p) 替换为 T_skel(x, P_pose§)

Canonical volume
正则体 F_c 表示为一个连续场，给定点 x 时输出颜色 c 和密度 σ
在这里插入图片描述

在NeRF之后，使用宽度为 256 的 8 层 MLP，以位置 x 的位置编码 γ 作为输入，产生颜色 c 和密度 σ。应用一个将 γ(x) 连接到第五层的跳跃式连接。在每个全连接层之后都采用 ReLU 激活，除了生成颜色 c 的那一层使用 sigmoid

Skeletal motion（骨骼运动）

计算骨骼变形 T_skel 作为一种逆线性混合skinning，将观察空间中的点映射到规范空间
在这里插入图片描述

wⁱ_o是第 i 个骨的混合权重，R_i, t_i 分别是旋转和平移，将骨骼的坐标从观察映射到规范空间，R_i 和 t_i 可以由 p 显式计算，目标是优化wⁱ_o

导出旋转和平移 {R_i, t_i} ，以从观察空间中的骨骼坐标映射到规范空间中的坐标。

定义身体姿态 p = (J， Ω)，其中 J = {j_i} 包含 K 个关节位置，Ω = { w_i }使用轴角表示∈so(3) 定义局部关节旋转。给定一个预定义的规范位姿 p_c = (J^c， Ω^c)和一个观察到的位姿 p = (J， Ω)，身体部分 k 的观察到规范变换 M 为:
在这里插入图片描述

其中 exp(ω)∈SO(3) 为 3×3 旋转矩阵，取 ω 的指数(即应用罗德里格斯旋转公式)计算，τ (k) 为运动学树中关节k的父结点的有序集。

然后可以从 M_k 中提取身体部位 k 的旋转平移 R_k 和 t_k :
在这里插入图片描述

通过存储 K 个混合权重作为一组体积 {wⁱ_c(x) } 来求解在规范空间中定义的 wⁱ_c，观察权重从中导出为

在这里插入图片描述
在规范空间中求解一组权值体积 {wⁱ_c(x) } ，而不是在观测空间(对应 N 个输入图像)中求解N组 {wⁱ_o(x) } ，可以避免过拟合，从而得到更好的泛化效果

将 {wⁱ_c(x) } 集合打包成一个包含 K 个通道的单个卷 W_c(x)

没有使用MLP编码W_c，而是选择了一个显式的体积表示，有以下两个原因

公式5 需要 K 个MLP 评估来计算每个 {wⁱ_o(x) } ，这对于优化是不可实现的(K = 24);
通过三线性插值重新采样的有限分辨率显式体积提供了平滑性，有助于以后的优化规范化，特别的，在优化过程中，不是直接求解体积 W_c，而是求解由随机(常数)潜在代码 z 生成体积的 CNN 参数 θ_skel:

添加了一个通道，一个背景类，并将 W_c 表示为一个包含 K + 1 个通道的卷。

将信道级 softmax 应用到 CNN 的输出，强制跨信道进行统一分区

公式5 的分母可以用来近似成为主体的一部分的可能性 Σ^K_k=1 w^k_c (R^kx + t_k)

当 f (x) 接近于零时，我们很可能处于远离主题的自由空间，这是我们在体绘制时使用的

在这里插入图片描述
用于生成运动权重体积的网络。网络从一个完全连接的层开始，它将(随机的，恒定的)潜在代码 z 转换为 1 × 1 × 1 × 1024 网格。随后，它与 5 个转置卷积连接，增加卷的大小，同时减少通道的数量，最后，产生一个大小为 32×32×32×25 的卷。在MLP 和转置卷积层后应用 LeakyReLU。潜在代码 z 的大小是 256。

Non-rigid motion（非刚性的运动）

非刚性运动 T_NR 表示为偏移 ∆x 到骨架驱动的运动，以该运动为条件，即 ∆x(x，p)= T_NR(T_skel(x，p)，p))，为了获取细节，用 MLP 表示 T_NR
在这里插入图片描述
再次使用标准的位置编码 γ 和条件 MLP Ω，身体姿态 p 的关节角

一个6层 MLP (宽度=128)，输入关节旋转 Ω 和位置编码 γ(x)，并预测偏移量 ∆x。我们在第五层的位置编码中使用一个跳过连接。此外，我们从关节角 Ω 中去掉了全局方向的旋转矢量，只使用剩下的作为 MLP 输入

Motion Field Decomposition（运动领域分解）

将运动场分解为骨架刚性运动和非刚性运动。具体来说，从观测空间中的 x 点开始，有三种不同的分解配方(为了简化符号和提高可读性，省略身体姿势 p，否则它总是作为T, T_skel, T_NR的第二个参数出现。)
在这里插入图片描述

T_skel和T_NR都以观测点位置x为条件，如上图(a)所示
T_NR 以 x 为条件，而 T_skel 以非刚性运动调整的位置为条件，x + T_NR(x)，如图(b)所示

Pose correction（姿势校正）

从图像中估计的身体姿势 p = (J， Ω) 通常是不准确的，为此需要更新姿态
在这里插入图片描述
固定关节 J，并优化关节角度的相对更新，∆_Ω =(∆w₀，…，∆w_k)，然后将其应用于Ω，得到更新的旋转向量

与其直接优化 ∆_Ω，不如求解基于 Ω 生成 ∆_Ω 的 MLP 的参数 θ 位姿，从而导致更快的收敛
在这里插入图片描述
将从观测空间到规范空间的扭曲方程重写为

宽度 256 的 4 层 MLP 取关节角 Ω 用于细化初始姿态。与非刚性运动MLP一样，我们将除根关节(即身体方向)外的所有关节都考虑在内，并进行相应的优化

HumanNeRF objective

输入帧{I₁, I₂，…， I_N}，身体姿势{p₁, p₂，…， p_N}，相机{e₁, e₂，…， e_N}
在这里插入图片描述
L{·}是损失函数，Γ[·]是体积渲染器，对所有网络参数使损失最小化。Θ = {θ_c, θ_skel, θ_NR, θ_pose}.

F_c由参数θ_c决定，而从观测空间到正则空间的变换 T 则依赖于参数 θ_skel、θ_NR和θ_pose

Volume rendering

一条含有D个样本的射线 r 的期望颜色 C®，∆t_i 为样本 i 与 i + 1之间的区间
在这里插入图片描述
进一步扩大 α_i 的定义，使其在前景近似概率 f(x) 较低时很小

采用NeR提出的分层抽样方法。不使用分层采样，因为被试的包围盒可以从他们的3D身体姿势估计。然后只对盒子里的点进行采样

Delayed optimization of non-rigid motion field

当一次性求解公式 11中的所有网络参数时，发现优化后的骨骼驱动运动和非刚性运动并没有解耦——受试者的一部分骨骼运动由非刚性运动场建模——这是由于非刚性运动对输入图像的过拟合所致。因此，当呈现不可见的视图时，质量会下降。

管理优化过程来解决问题。具体来说，在优化开始时禁用非刚体运动，然后以粗到细的方式将它们带回来。为了实现这一点，对于非刚性运动MLP，对其位置编码的频带应用了一个截断的 Hann 窗口，以防止对数据的过拟合，随着优化的进行，窗口大小不断增加。定义了位置编码的每个频带 j 的权值
在这里插入图片描述
其中 τ∈[0,L) 决定了截断汉恩窗的宽度，L 为位置编码的总频带数。然后我们将 τ 定义为优化迭代的函数

其中 t 为当前迭代，T_s 和 T_e 为超参数，决定何时启用非刚体运动优化，何时使用位置编码的全频带。从位置编码中移除位置标识而不影响性能。通过这样做，可以通过设置 τ = 0 完全禁用非刚性运动优化。

Loss and ray sampling

同时使用 MSE 损失来匹配像素级外观和感知损失 LPIPS，以提供对轻微的错位和阴影变化的鲁棒性，并改善重建中的细节。最终损失函数是 L = L_LPIPS + λL_MSE。使用 λ = 0.2，并选择 VGG 作为 LPIPS 的主干。

基于patch的射线采样:在随机射线样本上进行训练，就像在NeRF中做的那样，不能最小化损失，因为LPIPS使用卷积来提取特征。在一幅图像上采样 G 个大小为 H × H 的 patch，每批渲染总共 G × H × H 射线。将渲染的 patch 与输入图像上相同位置的 patch 进行比较。实验采用 G = 6, H = 32