104、Behind the Scenes: Density Fields for Single View Reconstruction

最新推荐文章于 2024-10-03 09:02:12 发布

C--G

最新推荐文章于 2024-10-03 09:02:12 发布

阅读量875

点赞数 20

分类专栏： # 3D重建文章标签： python

本文链接：https://blog.csdn.net/weixin_50973728/article/details/135484758

版权

3D重建专栏收录该内容

113 篇文章 88 订阅

订阅专栏

本文介绍了一种新的技术，通过预测隐密度场，从输入图像中生成复杂的场景表示。这种方法避免了存储颜色，仅依赖神经网络进行一次前向传播，用于视频数据的深度预测和新视图合成。自监督训练通过光度一致性确保密度场的准确性，同时处理无效采样以减少噪声和不稳定性。

摘要由CSDN通过智能技术生成

简介

官网
在这里插入图片描述

提出预测隐密度场方法，该密度场将输入图像视锥中的每个位置映射到体积密度。通过直接从可用视图中采样颜色，而不是在密度场中存储颜色，与NeRFs相比，所提出的场景表示变得明显不那么复杂，并且神经网络可以在一次前向传递中预测它，从视频数据中进行自我监督训练预测网络。该公式允许体绘制执行深度预测和新视图合成。

实现流程

在这里插入图片描述

输入图片 $I_I \in [0,1]^{3 \times H \times W} = (\R^3)^\Omega，\Omega = \{ 1,\cdots,H \} \times \{ 1,\cdots,W \}$ ，对应的世界-相机姿态矩阵和投影矩阵为 $T_I \in \R^{4 \times 4}，K_I \in \R^{3 \times 4}$ 。在训练时一系列帧 $I_k,K\in N$ 的集合为 $\{1,2,\cdots,n\}$ 。在假设齐次坐标的情况下，世界坐标中的一个点 $x\in\R^3$ 可以投影到坐标系 k 的像平面上， $\pi_K(x) = K_KT_Kx$

Predicting a Density Field

在这里插入图片描述

从输入图像 $I_I$ 中，编码器-解码器网络首先预测像素对齐的特征图 $F\in(\R^C)^Ω$ ，对特征 $f_{u'} = F(u')$ 进行双线性采样，结合位置编码 $y (d)$ 和像素位置编码 $y(u'_I)$ ，通过MLP获得该点密度。
在这里插入图片描述

Volume Rendering with Color Sampling

在这里插入图片描述

将一个点 x 投影到一个坐标系 k 中，然后对颜色 $c_{x,k} = I_K(\pi_K(x))$ 进行双线性采样，并结合体密度进行体渲染得到像素预测值。
在这里插入图片描述

Behind the Scenes Loss Formulation

首先从输入图像 $I_I$ 计算特征映射 $F$ ，得到所有帧集合 $\hat{N} = \{I_I\} \cup N$ ，随机划分为两个集合 $N_{loss},N_{render}$ ，输入图像可以出现在这两个集合中的任何一个。使用相机姿态和预测密度从 $N_{render}$ 中采样颜色，重建 $N_{loss}$ 中的帧，重建图像帧与 $N_{loss}$ 图像帧之间的光度一致性作为密度场的监督，随机采样p块 $P_i$ 来使用逐块光度测量，具体参考[Digging into self-supervised monocular depth estimation]。因此会产生2D损失为：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
训练期间，目标是在 $I_k$ 中重建区域 p 。基于 $I_{k+1}$ 采样颜色的重建将给出一个清晰的训练信号，即使该区域在 $I_I$ 中被遮挡，也能正确预测该区域的几何结构，为了学习有关被遮挡区域的几何形状，需要在训练期间除了输入之外至少两个额外的视图来查看场景背后。

Handling invalid samples

虽然不同视图的截锥体在大部分情况下重叠，但仍然有可能有光线离开截锥体，从而采样无效的特征或采样无效的颜色。这些无效射线会导致训练过程中的噪声和不稳定。因此，提出了一种检测和删除无效射线的策略，当来自无效采样颜色或特征的对最终聚合颜色的贡献量超过某个阈值τ时，该射线应该被丢弃。考虑一条在位置 $x_i, i∈[1,2，…,S]$ 处计算的射线。，从第K帧重构得到: $O_{i, K}, K∈ \{I\}∪K$ 表示指示函数 $x_i$ 在第 K 帧的摄像机视锥之外。注意，总是从输入帧中采样特征。将 IV(k) 定义为表示基于帧 k 渲染的颜色无效的函数，如下所示:
在这里插入图片描述
只有当 IV(k) 对于所有重建射线的帧都为真时，在计算损失值时忽略射线。这背后的原因是，非无效射线仍然会导致最低的误差。因此，式(5)中的min运算将忽略无效射线。