33、D2NeRF Self-Supervised Decoupling of Dynamic and Static Objects from a Monocular Video

C--G

已于 2022-09-08 20:28:46 修改

阅读量1.6k

点赞数 1

分类专栏： # 3D重建文章标签：人工智能深度学习计算机视觉

于 2022-09-01 17:22:23 首次发布

本文链接：https://blog.csdn.net/weixin_50973728/article/details/126626722

版权

3D重建专栏收录该内容

113 篇文章

订阅专栏

简介

主页：https://d2nerf.github.io/

对于单目视频，在恢复静态环境的同时对动态目标进行分割和解耦是机器智能中广泛研究的问题。现有的解决方案通常在图像领域处理这个问题，限制了它们的性能和对环境的理解。论文引入了解耦动态神经辐射场(D2NeRF)，这是一种自我监督的方法，它从单目视频中学习一个3D场景表示，从静态背景中解耦运动物体，包括它们的阴影。论文的方法通过两个单独的神经辐射场来表示运动对象和静态背景，其中只有一个允许时间变化。这种方法的简单实现会导致动态组件取代静态组件，因为前者的表示本质上更一般化，而且容易过拟合。为此，论文提出了一个新的损失，以促进正确的分离现象。论文进一步提出了一个阴影场网络来检测和解耦动态移动的阴影。

实现流程

在这里插入图片描述
给定真实视图、相机姿态和时间框架，将底层场景重建为一个复合辐射场。动态对象用F^D表示，静态场景用F^S表示。阴影场F^ρ模拟了输入视频中的非静态阴影

Composite Neural Radiance Field

在这里插入图片描述
静态组件基于NeRF，使用多层感知器 F^S(x,d) 将场景表示为连续的空间依赖密度σ和空间视依赖亮度c

x∈R³为空间坐标，d∈R³，‖d‖= 1为视图方向

动态组件扩展于HyperNeRF——通过引入额外的自由度和网络容量，它可以准确地捕捉非刚性运动以及拓扑变化的场景，记为F^D(x,d,τi)
在这里插入图片描述
τi∈R^m为每帧时间潜在码

给定一个来自o且方向为d的相机射线r = o + td，根据预先定义的深度范围[t_n, t_f]内的体积渲染对亮度进行积分，将这两个模型合成，得到复合NeRF，计算相机射线的颜色ˆC
在这里插入图片描述
简化公式为 σ(t) ≡ σ(r(t)) and c(t) ≡ c(r(t), d)，具有这样的相加分解，来自两个领域的样本都能够终止相机射线和遮挡另一个。

Supervision Losses

使用了一个光度损失，以确保复合NeRF (Eq. 3)的输出图像序列与输入视频帧对齐
在这里插入图片描述
C(r， τ_i)为第i个输入视频帧得到的摄像机射线r的真实颜色

动态组件可以通过不正确地将静态对象的占用分配给动态NeRF来自然地接管静态对等物，而且光度损失本身也不能保证正确的分离

因此论文引入一组正则化器，以自我监督的方式促进这种解耦

Dynamic vs. Static Factorization

在引入正则化器前，我们需要明确，物理物体不能在同一个空间位置共存，即有一个静态场景或一个动态物体在空间中的任何位置，但不能两者都有，将动态与静态密度的空间比率表示为
在这里插入图片描述
通过二进制熵损失来惩罚其对分类{0,1}分布的偏离

由于动态网络的表达能力很强(Eq. 2)，优化损失(Eq. 7)导致该技术将场景的部分建模为动态的，无论它们是动态的还是静态的

为此，引入一个倾斜的熵损失，使损失稍微偏向于带有偏斜度超参数 k 的场景的静态解释
在这里插入图片描述

在这里插入图片描述
Skewed entropy-(左)，skewed(k > 1)和 classical(k = 1)熵损失。倾斜熵促使 w 减小的范围更大，在0.5附近有较大的梯度，但当 w 接近0时，其梯度消失。(右)当原始、适当倾斜和过倾斜的二进制熵损失被应用时，解耦 α Mask（掩膜）和静态组件。

Ray Regularization

选择偏度k的大值会导致场景的静态部分出现模糊的浮蚊(低密度的粒子);如上图(右，k=10)所示。从上图(左)可以直观地理解，这是由于随着x趋于零，H_b(xk)的梯度较小造成的。为了减轻这种影响，并减少重建中的模糊性，惩罚沿着每个相机射线的w的最大值
在这里插入图片描述
这种损失可以直观地解释为约束动态分量，使其占用尽可能少的像素，同时保持对所有样本整体损失的影响最小。注意L_r只移除那些沿着相机射线而不与任何动态物体相交的密度浮动物

Static Regularization

静态组件可能滥用相机姿势作为提示当前的时间框架和学习动态效果稀疏的云，导致高频外观变化。这种模糊性是因为使用的是单目视频，在捕捉过程中，相机几乎从不访问完全相同的位置两次。也就是说，摄像机姿态与时间变量之间存在一对一的映射关系。
在这里插入图片描述
静态正则化，通过在静态组件沿每个相机射线鼓励一个更集中的密度分布，恢复的背景包含较少的视相关的工件。

通过对沿射线的密度分布进行先验处理来解决这个问题，惩罚会导致云状伪影的密度分布
在这里插入图片描述

Shadow Fields

神经辐射场不能忠实地建模独立的阴影，除非对其架构建模材料和照明进行必要的重大更改，如NeRFactor;

动态物体快速移动的简单情况下，它们可以作为静态表面上半透明层的动态辐射场学习。然而，对于不怎么移动的阴影，或者与相机视图高度相关的阴影，这往往是失败的。由于阴影是没有纹理的，理解它们的运动是不明确的，将它们表示为半透明层会给优化带来困难;
在这里插入图片描述
阴影模糊-当阴影在输入数据中频繁出现时，平均阴影被集成到静态组件中，而动态组件错误地学习了这个平均值的微分，并出现一个更亮的表面。这可以通过对静态区域(即阴影场)进行动态暗化的阴影效果进行更直接的建模来避免。