44、DeVRF

C--G

已于 2022-09-27 17:18:14 修改

阅读量499

点赞数

分类专栏： # 3D重建

于 2022-09-17 23:10:42 首次发布

本文链接：https://blog.csdn.net/weixin_50973728/article/details/126911085

版权

3D重建专栏收录该内容

113 篇文章 83 订阅

订阅专栏

简介

主页：https://jia-wei-liu.github.io/DeVRF/

在这里插入图片描述
论文提出高效实用的学习范式，即静态→动态，用于学习变形辐射场，这背后的关键思想是，从多视点静态图像学习的三维体积标准空间可以引入归纳偏差[3]，以解锁可变形辐射场的有效学习，有了这样的3D先验，一个动态场景只需要几个固定的摄像机就可以有效地建模，在实践中，这样的少量固定摄像机设置用于动态场景数据捕获比移动摄像机更方便。优化方面，使用粗到精的4D变形场训练策略，以进一步提高效率，提出三个目标，以鼓励DeVRF以高保真度重建动态辐射场，保持变形周期一致性、光流监测和总变化正则化

只需要几个相机进行数据捕获，在单个NVIDIA GeForce RTX3090 GPU上实现了大约10分钟的快速动态辐射场建模

贡献点

提出了一种新的DeVRF视角，它能够实现快速的非刚性神经场景重建，与具有同等高保真度的SOTA方法相比，它实现了令人印象深刻的100倍加速。
第一个将4D体素变形场纳入动态辐射场的
设计了一个静态→动态的学习范式，可以通过低成本但有效的捕获设置来提高性能

实现流程

Capture Setup

可变形场景经历各种类型的变形和运动，这可能导致不同的场景属性，如物体的姿态、形状和遮挡，如果用多视角序列捕捉360°面向内的动态场景，因此需要数十台高质量相机。

在实际操作中，由于动态场景中存在各种类型的变形和产生的遮挡，特别是在快速变形的场景中，用单个移动摄像机捕捉真实世界的360°面向内的动态场景尤其具有挑战性，因此，后续的研究只能用单目摄像机捕捉现实世界动态场景的正向视频

论文将动态场景的捕获过程分为两个阶段

使用移动的单目相机捕捉静态状态
使用几个固定的摄像机捕捉动态场景

多视图静态图像提供了完整的三维几何和场景外观信息，而少视图动态序列显示了场景如何随着时间在三维空间中变形

资源消耗对比
在这里插入图片描述

Deformable Voxel Radiance Fields

在这里插入图片描述
论文提出了DeVRF来建模具有显式和离散体素表示的非刚性场景的3D标准空间和4D变形场

在第一阶段，DeVRF从多视图静态图像(a)中学习三维体积标准先验(b)。即：将3D规范空间的密度和颜色等场景属性建模到体素网格中,这样能够通过其邻近体素的三线性插值有效地查询任何3D点的场景属性

在第二阶段，通过获取少视图动态序列（c）和3D标准先验(b)，联合优化4D变形场(d)。对于从变形帧采样的射线点，可以从4D向后变形场(d)中有效地查询其到标准空间的变形。因此，可以在三维体标准空间中通过线性插值得到这些变形点的场景属性(即密度、颜色)，并利用这些变形样本点通过体绘制(e)合成相应的新视图(f)。

3D Volumetric Canonical Space

在这里插入图片描述

其中 C 为场景属性 $V_p$ 的维度。 $N_x、N_y和N_z分别是V_p$ 在x、y、z维的体素分辨率

上图a-b，通过体绘制的多视图静态图像 ${I_S}$ ，学习了三维体积正则先验，即密度网格 $V_{density}$ 和颜色网格 $V_{color}$

遵循DVGO，在 v 密度下对一个三维点进行三线性插值后，使用了softplus和post-activation，因为这对锐利边界和高频几何重建至关重要，在 $V_{color}$ 中对一个3D点进行三线性插值后应用一个浅MLP，以实现与视图相关的颜色效果

在静态→动态学习范式中，学习到的三维体积标准先验提供了目标动态场景的三维几何和外观的关键知识，因为只有少数视图动态序列很难以高保真度重建完整的可变形辐射场

4D Voxel Deformation Field

在这里插入图片描述

箭头方向表示体素的运动，颜色表示运动方向，箭头大小表示运动尺度

为了合成时间步 t 的新视图，在三维空间中通过图像像素和采样射线点 $X_t = {X^t_i}$ 发射射线

通过在4D向后变形场中相邻时间步上相邻体素的四次插值，可以有效地查询到 $X_t$ 到规范空间 $X_0 = \{X^0_i | X^0_i = X^t_i +∆X^{t→0}_i\}$ 中对应的3D点的三维运动 $∆X_{t→0} =\{∆X^{t→0}_i\}$ 。
在这里插入图片描述
其中 C 为采样点运动的自由度(DoFs)。使用C = 3，即为每个采样点分配一个位移向量。 $N_t$ 是关键时间步骤的数量，可以根据场景运动属性自定义。

$X_t$ 的场景性质可以通过在体积正则空间中通过三线性插值查询其对应的正则点 $X_0$ 的场景性质得到

Optimization

Coarse-to-Fine Optimization

对于 $N_t ×C ×N_x ×N_y ×N_z$ 分辨率的密集4D体素变形场，可能存在数百万个自由参数，这些参数容易出现过拟合和次优解

论文使用由粗到精的训练策略，逐步提高了4D体素变形场的 x-y-z 分辨率，从10 × 10 × 10到160 × 160 × 160

Re-rendering Loss

利用 $X_t$ 处的采样属性，通过体绘制可以计算出像素的颜色，即沿着射线 r 对 $X_t$ 的密度和颜色进行积分
在这里插入图片描述
$N_r$ 为沿射线采样的变形点数， $T_i$ 为光通过射线 r 传到第 i 个采样点的概率， $1−exp(−σ_iδ_i)$ 为光在第 i 个采样点终止的概率。 $δ_i$ 为相邻采样点之间的距离， $σ_i、c_i$ 分别为变形点 i 的密度和颜色。 $C_{bg}$ 是预定义的背景色

对于具有校正姿态 ${I_D\}$ 的少视图训练动态序列，DeVRF通过最小化观测像素颜色 C® 和渲染像素颜色 $\hat{C}(r)$ 之间的光度MSE损失来优化。

在这里插入图片描述
R是小批量射线的集合

4D Deformation Cycle Consistency

强制前后运动的4D变形周期一致，使学习到的变形场正则化,在4D变形循环中，逆向运动向量 $X_{t→0}$ 模拟从 $X_t$ 到 $X_0$ 的运动;而正向运动向量 $X_{0→t}$ 则模拟了动态空间中从 $X_0$ 到相应3D点的运动情况， $∆\tilde{X}_t = \{ \tilde{X}^t_i | \tilde{X}^t_i = X^0 _i +∆X^{0→t}_i \}$ 。4D运动周期一致性现在可以通过最小化以下周期一致性损失 $L_{Cycle}(t)$ 来实现
在这里插入图片描述
$N_s$ 为小批中采样的3D点数量

Optical Flow Supervision

利用预训练的RAFT模型，从每个动态序列的连续帧估计二维光流间接监督DeVRF。对于 $X_t$ 及其对应的 $X_0$ ，首先通过前向运动法计算出 $X_0$ 在 t−1 时间步时对应的3D点，方法为: $\tilde{X}_{t−1} = { \tilde{X}^{t−1}_i | \tilde{X}^{t−1}_i = X^0_i +∆X^{0→t−1}_i}$ 。然后，在参考相机上投影 $\tilde{X}_{t−1}$ ，得到它们的像素位置 $\tilde{P}_{t−1} ={\tilde{P}^{t−1}_i}$ ，并计算 $X_t$ 光线从像素位置 $P_t = {P^t_i}$ 投射的诱导光流。通过最小化 $L_{Flow} (t)$ 来使诱导流量与估计流量相同，
在这里插入图片描述
其中 $W_{r,i} = T_i ( 1−exp(−σ_iδ_i))$ 为式(3)中的射线终止权值， $f_{P^t_{r,i}} 为像素 P^t_{r,i}$ 处估计的二维反向光流。