56、Temporal-MPI: Enabling Multi-Plane Images for Dynamic Scene Modelling via Temporal Basis Learning-CSDN博客

本文链接：https://blog.csdn.net/weixin_50973728/article/details/127128271

简介

论文地址：https://arxiv.org/abs/2111.10533v2
在这里插入图片描述
Time-instance MPI可以通过时序基和时序系数的线性组合，在短时间内高效地生成用于渲染的时序MPI

相关文献

D-NeRF21中存在时间条件翘曲场，即添加了一个时间条件变形网络来预测与时间相关的位置偏移，从而将标准NeRF变形为一个时间实例形状。
NeuralFlow21中存在场景流场，即使用时间光度一致性来鼓励从单目视频中学习时间条件下的NeRF。
Neural3DVideo21中存在亮度场，也将NeRF转化为时空域，通过插值时间潜向量实现帧插值。

然而，上述nerf风格的方法耗时的渲染过程限制了它们对实时应用的能力。

根据深度直接将图像扭曲成新的视图是一种高效的视图合成途径。

DynSyn20结合多视图深度和单视图深度，生成动态视图扭曲的时间一致深度。然而，他们的方法有两个缺点:首先，它需要分离静态和动态内容的前景遮罩;其次，他们的方法不能很好地处理闭塞。
3DMaskVol21提出了一种使用三维掩码体生成动态MPI的方法，以减少背景和瞬时MPI积分边界附近的伪影。然而，他们的方法需要两步训练和背景图像。因此，限制了他们的一般能力。

与nerf风格的方法DynSyn20和3DMaskVol21相比，Temporal-MPI渲染效率高，存储空间小。

实现流程

给定动态场景的一组同步多视点视频 ${ I_t^k\}$ ，其中 t = 1,2， .···T 为帧数，k = 1,2，····，K 为摄像机指标，目标是构建一个紧凑的3D表示，使动态内容在给定时间 t∈[1,T] 时能够实时、新颖地合成。一种方法是为每一帧视频计算并保存一组独立的 MPI M = $\{ M_t∈R^{H×W ×D×4}\}^T_t{=1}$ ，显然这是耗时耗力浪费资源的。TemporalMPI表示，它具有学习过的时间基础，可以对整个视频中的高频变化进行紧凑编码

在这里插入图片描述
提出的 Temporal-MPI 包括低频分量 $K^c_0$ 、时域基 B 和高频系数 $\{K_n\}^{N_{basis}}_{n=1}$ 三个部分。将 time-instantaneous MPI $M_t$ 中的 alpha 值和颜色值恢复为基 B 和高频系数 $\{K_n\}^{N_{basis}}_{n=1}$ 的线性组合，并加入TemporalMPI $\hat{M}$ 中的低频分量 $K^c_0$ 。对应帧的颜色由 time-instantaneous MPI $M_t$ 作为MPI的alpha合成在式(1)中渲染。通过像素渲染损失，对每场景的整体管道进行可微优化。

The Multi-plane Image Representation

作为3D内容嵌入和新视图合成的重要表示框架之一，多平面图像(MPI)从一组多视图参考中学习场景的分层深度分解。根据Nex 中的 MPI 图解，设 D 表示 MPI 中的深度层数，每层的尺寸为H × W × 4，其中 H 和 W 表示 MPI 层的高度和宽度，4 表示3 通道 RGB 和 1 通道 α 。因此，MPI 表示为 M = $\{C_d, A_d\}^D_{d=1}$ ，其中 $C_d∈R^{H×W ×3}$ 是多层的 3 通道RGB 图像， $A_d∈R^{H×W ×1}$ 是单通道alpha图像，d 表示深度平面索引。

基于 MPI M 的新颖视图 $\hat{I}$ 的合成包括两个步骤

将 MPI 中的所有深度平面从一个参考视图到一个源视图
在每个图层的颜色上使用 alpha-composition 渲染像素

W 表示扭曲算符，O 表示合成算符。合成运算符 O 定义为

其中， $\pi^D_{i=d+1}(1-A_i)$ 为累积透光率， $T_d$ 为不透明度。输出的 O(A, C) 是最终渲染的颜色。合成 O 和扭曲 W 操作都是可微的，从而允许表示M从最终的像素渲染损失中学习几何和颜色信息。

Temporal Basis Formulation

在给定的时间实例 t∈[1,T] 上，将时间实例 MPI 表示为 $M_t$ 。为了在连续的时间戳上呈现整个新视图序列，需要生成一组时间实例 MPIs M = $\{M_t∈R^{H×W ×D×4}\}^T_t{=1}$

将目标分为两个任务

学习低频颜色分量作为显式参数
学习一组时间基上的高频变化。

Explicit Parameter Learning for Low-frequency Component

视频中的低频内容在时间维度上构成总能量的低频部分，可以很好地捕捉并通过时不变参数显式建模，将多视图视频 ${I_t^k\}_{t,k}$ 的所有帧均视为源视图，忽略其各自的帧索引，利用像素渲染损失可以直接学习到多平面时不变的RGB颜色参数 $K^c_0∈R^{H×W ×D/8×3}$ , $K^c_0$ 为视频的低频能量建模，动态区域上可能存在模糊,这种对低频分量的显式建模方案非常重要，使后续的动态建模能够更好地关注时间变化

Temporal Basis Learning for High-Frequency Contents

与低频分量相比，M 中的高频成分在时间维上构成了高频能量,高频内容具有高维和动态变化，仍然构成高度正则化的流形，考虑到以下事实

视频长度有限(用24帧长度的视频建模，尽管这些帧可以从更长的视频序列中提取)
场景中的时变像素通常在集群中显示一致的运动。因此要基于一些学习到的时变时间基来紧凑地表示高频分量。

将时间基表示为 B∈ $R^{4×T ×N_{basis}}$ ，它跨越了 M 的时间变化空间。这里 $N_{basis}$ 表示基的总数。B 的第一个维度设置为4，这是为MPI颜色组件(有3个通道): $B_c = \{b^c_n\}^{N_{basis}}_{n=1}$ ，和 α 组件 $B^α = \{b^a_n \}^{N_{basis}}_{n=1}$ (1通道)预留的。因此 $B = [B_c, B_α]$ 。

时间基将由两个时间相关的函数来估计，它们是多层感知器(MLP)网络 $V_c$ 和 $V_α$
在这里插入图片描述
这里 $\varepsilon(·)$ 是一个时间编码函数，它将时间相等的信息编码为高维潜向量

时间基 B 学习了一个有效跨越时间变化流形的简约框架。有了特定像素的编码系数，B 可以高效地在整个视频中建模 MPI 像素的时间变化。

Temporal Coding for Novel-view Synthesis

对于任意帧索引 t∈[1,T]，基于时间基 B 可构造时间实例 MPI $M_t = [A_t, C_t]$ ，其表达式为
在这里插入图片描述
其中， $K_n^α(x)$ 和 $K^c_n(x)$ 是给定MPI空间位置 x∈ $R^3$ 上各自时间基的编码系数 ( x的三维包括其二维坐标和深度平面指数 $M_t$ )，这些编码系数由另一组 mlp $K^c$ 和 $K^α$ 估计:

这里 R(·) 是一个位置编码函数，它将空间信息 x 编码为高维表示， $R(p) = [sin(2^0 \ \ π/2 \ \ p)， sin(2^0 \ \ π/2 \ \ p)，…， sin(2^l \ \ π/2 \ \ p)， cos(2^l \ \ π/2 \ \ p)]$

根据式(6)、(7)可将时间实例 MPI $M_t$ 根据式(2)、(1)进行变形合成到任意视角，并沿时间基查询所有元素 t = 1、···、T，可构建每一视频帧的时间实例 MPI

Remarks

temporal MPI 表示由显式学习的低频多平面颜色分量 $K^c_0∈R^{H×W ×D/8×3}$ 和通过同步基和系数学习动态编码的时变分量组成。通过时间基实现了沿时间维的压缩，压缩了整个视频中随时间变化的颜色和几何变化信息。

为了保持渲染效率和节省存储空间，时空信息在 Temporal-MPI的不同组件之间被高效编码和传播。

在所有时间帧之间共享低频分量 $K^c_0$ ，这保证了整体重建质量，使高频分量只关注与时间相关的变化;
高频系数，即 $\{K^c_n(x)\}^{N_{basis}}_{n=1}$ 和 $\{K_n^α(x)\}^{N_{basis}}_{n=1}$ ，是在一组共同的时间基上按点编码/学习的。这有助于消除建模动态变化中的冗余，也有助于消除一些像素的运动歧义。

Training Loss Function

为了让 Temporal-MPI 专注于重建质量，这里忽略了编码系数的稀疏性。系数和时间基共同学习和优化。通过以下损失函数 L对整个系统进行优化
在这里插入图片描述
其中， $\hat{I}_t^k$ 是相机 k 在 t 时刻的渲染图像， $\hat{I}_t^k$ 是来自同一视图的真实图像。L 中的第一项计算L2 重构损失。第二项惩罚边缘不一致，∇表示梯度算子。第三项 TVC为总变异损失。 $λ_1$ 和 $λ_2$ 为不同损失项的平衡权值。

Detail

模型是在PyTorch 1.10中实现的，使用Adam作为优化器。初始学习率设为0.001，每2000步衰减0.1。该模型在一台Nvidia Geforce RTX 2070超级图形处理器上训练16小时，使用5.3 GB内存，批次为1500条射线。输出分辨率为576 × 300。位置编码方法表示为 $R(p) = [sin(2^0 \ \ π/2 \ \ p)， sin(2^0 \ \ π/2 \ \ p)，…， sin(2^l \ \ π/2 \ \ p)， cos(2^l \ \ π/2 \ \ p)]$ ，其中场景点的输入位置归一化为 [-1,1]，l 为编码级别设置为 3 的指标。使用字典学习将时间索引嵌入到大小为 32 的潜在向量中。对于参数化 $K_c$ 和 $K_α$ 的网络，使用具有 8 层和 384 个隐藏节点的 MLP 网络。 $V_c$ 和 $V_α$ 网络采用 4 层64 隐节点的 MLP。Temporal-MPI 中高频系数 $\{K^c_n(x) \}^{N_{basis}}_{n=1}$ 和 $\{K_n^α(x)\}^{N_{basis}}_{n=1}$ 的形状为 320 × 596 × 32 × 4 × 5 ，其中 32 为平面 D 的数量，596 和 320为宽度 W 和高度 H，包括设为 10 的边缘偏移量，4 包括 3 个颜色通道和 1 个alpha通道，5 为基 $N_{basus}$ 的数量。时间基B 的形状为 4 × 5 × 24，其中5是基 $N_{basus}$ 的数量，24是时间戳的总数，4包括3个通道用于颜色和1个通道用于alpha。低频分量 $K^c_0$ 沿深度维度重复前的形状为 320 × 596 × 4 × 3。

效果

在这里插入图片描述