NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo

在这里插入图片描述
在这里插入图片描述
论文的方法概述。首先采用 COLMAP 中的常规 SfM 和 MVS 方法得到稀疏深度(融合后) ,然后通过训练单目深度网络得到场景特定的深度先验。然后,利用深度先验来指导体积采样在 NERF 的优化。最后,通过计算渲染图像与原始输入图像之间的误差,获得置信度分数,使能够采用基于置信度的滤波器来提高渲染深度。

https://weiyithu.github.io/NerfingMVS/

https://github.com/weiyithu/NerfingMVS

Abstract

在这项工作中,我们提出了一个新的多视图深度估计方法(new multi-view depth estimation method),在最近提出的神经辐射场(NeRF)上利用传统的重建和基于学习的先验。与现有的基于神经网络的优化方法依赖估计不同,论文中的方法直接对隐式体积进行优化,消除了室内场景中像素匹配的困难步骤我们的方法的关键是利用基于学习的先验来指导 NERF 的优化过程。该系统首先通过对 COLMAP 算法的稀疏 SfM + MVS 重构进行调整,适应目标场景上的单目深度网络。然后,我们指出在室内环境中仍然存在形状-辐射模糊,并建议利用自适应深度先验来监测立体渲染的采样过程。最后,通过对渲染后的图像进行误差计算,得到每像素的置信度图,进一步提高图像的深度质量。实验表明,我们提出的框架在室内场景显着优于最先进的方法,与自适应深度先验相比,在基于对应的优化和基于 NERF 的优化的有效性方面提出了令人惊讶的发现。此外,我们还表明,该引导优化方案不牺牲神经辐射场的原始合成能力,提高了视图和新视图的绘制质量。

3.Method

3.1. Overview(概述)

我们介绍了一种利用传统稀疏重建和基于先验学习的多视点深度估计方法。我们提出的系统建立在最近提出的神经辐射场(NeRF)的基础上,并在推断中执行测试时间优化。与现有的依赖于估计对应的测试时间优化方法相比,直接对体积进行优化消除了精确匹配横向像素的必要性。这个想法也被直接的方法在即时定位与地图构建(sLAM)的背景下加以利用

我们的方法的关键是有效地将来自基于学习的先验的附加信息整合到 NERF 训练pipeline中。图2显示了我们提议的系统的概述。第3.2节展示了我们如何在测试时根据特定场景调整深度。在第3.3节中,我们分析了为什么 NERF 不能在室内场景中产生精确的几何形状,并描述了我们的基于学习的先验引导优化方案。在第3.4节中,我们讨论了如何通过引导优化训练得到的神经辐射场来推断深度和综合视图

3.2. Scene-specific Adaptation of the Depth Priors

类似于 CVD [29] ,我们的方法还旨在利用基于学习的深度先验,以帮助优化几何在测试时间。然而,不像[29]对所有测试场景使用相同的单目深度网络,我们建议在每个场景上调整网络以获得场景特定的深度先验。经验表明,这种测试时间自适应方法大大提高了最终深度输出的质量。

我们提出的适应场景特定深度先验是微调单目深度网络的传统稀疏重建。具体来说,我们在测试场景上运行 COLMAP [43,44] ,并通过在多视图立体系统(multi-view stereo)后投影融合的3D 点云来获得每视图稀疏深度图。由于融合过程中采用了几何一致性检验,所获得的深度图稀疏而稳健,可以作为训练场景特定深度先验的监督源。

由于获得的深度图的尺度模糊性,我们采用尺度不变损失[5]来训练深度网络,具体如下:在这里插入图片描述

微调单目深度网络是一个更强的先验,适合特定的目标场景。通过我们在 NeRF 上的指导性优化,可以进一步改善自适应先验的质量,而表2显示应用现有的基于对应的神经优化将令人惊讶地降低自适应深度先验的质量。

3.3. NERF 的引导优化

NeRF中首次提出了神经辐射场,在视图合成方面取得了令人印象深刻的成果。我们的系统利用了其精确深度估计的潜力。通过集成上述自适应深度先验,我们直接优化隐式卷。NERF 成功的关键在于采用一个以 θ 为参数的完全连通网络,用 Fθ 表示隐式辐射场: (x,d)→(c,σ) ,其中 x 和 d 表示位置和方向,c 和 σ 表示颜色和密度作为网络输出。视图合成可以很容易地通过立体渲染实现,这使得 NeRF 可以直接在多视角的 RGB 图像上训练自己。采用稀疏三维重建计算得到的近界 tf 和远界 tf,对每条射线的采样立体渲染进行监测。具体来说,它将[ tn,tf ]划分到 M 个容器中,并对具有统一分布的每个容器随机抽样一个查询点:在这里插入图片描述
每条射线的渲染 RGB 值 c ®可以从有限的样本中用体渲染计算出来。再者
per-view depth D®也可以通过计算样品沿射线的期望值来近似:
在这里插入图片描述

虽然仅仅满足输入图像上的辐射场并不能保证正确的几何形状,但是三维几何形状和辐射之间的色散模糊性已经在[61]中进行了研究。本文认为,由于不正确的几何形状导致高内禀复杂性,正确的形状具有更光滑的表面光场,更受到有限网络容量的学习型神经辐射场的青睐。这个假设通常适用于富有纹理的户外场景。然而,我们经验性地观察到,NERF 在质地较差的区域(例如墙壁)挣扎,这在室内环境中很常见。

图3显示了 NERF 的一个失败案例,它在无纹理区域受到形状-辐射模糊的影响,其中 NERF 完美地合成了输入图像,其几何形状大大偏离了地面真实。

失败来自于虽然极其难以置信的形状被忽略,有利于平滑的表面光场[61] ,但仍然存在一个平滑的辐射场家族,完美地解释了训练图像。此外,模糊图像和大情感真实室内场景会降低 NRF 的容量,加剧形状-辐射模糊问题。我们发现,这是一个共同的问题,在所有测试的室内场景。在这里插入图片描述
图3固有的形状-辐射模糊[61]成为室内场景的瓶颈。顶行: (a)渲染 NERF 的 RGB [33]。(b)沿照相机光线在红色位置的取样点的可视化。蓝线表示地面真实深度值。下面一行: © NERF [33]渲染的深度图。(d)地面真实深度图。虽然 NERF 产生高质量渲染图像(PSNR: 31.53) ,渲染深度大大偏离地面真相。

在图3(b)中,我们显示所有沿照相机光线的采样点,对应一个粗糙的纹理像素预测大致相同的 RGB 值,置信度分布集中在一个有限的范围内。基于这一观察结果,我们考虑使用单目深度网络的自适应深度先验来指导 NERF 采样过程。通过明确地限制采样范围分布在深度先验周围,我们避免了室内场景中大多数 NERF 退化的情况。这可以通过直接优化 RGB 图像来实现精确的深度估计。

具体来说,我们首先通过几何一致性检验获得自适应深度先验的误差图。对于 N 个输入视图,将自适应的深度先验表示为{ Di } Ni = 1。我们将每个视图的深度图投射到所有其他视图:

在这里插入图片描述
其中 K 是相机本身,Ti → j 是相对姿势。Ps → t 和 Di → j 是 jth 视图中投影的二维坐标和投影深度。然后我们使用 Dj ′和 Di → j 之间的相对误差来计算深度重投影误差。注意有些像素在一些视图对之间没有重叠。因此,我们将每个视图的深度先验误差映射定义为顶 K 最小横视深度投影误差的平均值。

在这里插入图片描述
如图4所示,误差相对较低的像素上的采样更多地集中在自适应深度先验上,而误差较大的像素上的采样更接近于原始的 NeRF 公式。

在这里插入图片描述
图4: 有指导的 NeRF 优化[33]。通过对自适应深度先验进行多视点一致性检验,得到误差映射,从而计算每个摄像机射线到采样点的自适应深度范围,进行 NERF 优化。

3.4. Inference and View Synthesis

为了便于推理,我们可以通过在方程6中定义的采样范围内进行重采样,直接预测每个输入视图的深度图并且运用方程(3)计算期望值。这给出了一个准确的输出深度与我们提出的指导优化方案的 NRF 配备。

为了进一步提高深度质量,我们利用了 NERF 的视图合成结果来计算预测几何图形的像素置信度的潜力。如果在特定像素处渲染的 RGB 不能很好地匹配输入训练图像,我们对这个像素的深度预测的置信度相对较低。第 i 视图中第 jth 像素的置信度 Si j 被明确定义为:
在这里插入图片描述
其中cigt和cirender是基本的真实意象,每个可见视图的渲染意象的所有价值除以255。使用了绝对差异。这种置信度图可以进一步用现成的后滤波技术来精化预测的深度图。我们使用在[51]中引入的平面双边滤波来获得最终的输出,这提高了深度质量,特别是对于渲染 RGB 图像不准确的区域。

提出的引导优化策略需要自适应深度先验作为输入,以沿摄像机光线进行引导点采样,但仍然可以直接利用最近视点的自适应深度先验进行新视点合成。根据经验,这足以产生准确的深度图,并在视图合成质量方面显著优于原始的 NERF (见表5)。

5. Conclusion and Future Work

在这项工作中,我们提出了一个多视图深度估计方法,结合基于学习的深度先验到 NERF 的优化。与已有的研究相反,我们发现在室内场景中基于 NERF 的深度估计中,NERF 的形状-辐射模糊度成为一个瓶颈为了解决这个问题,我们提出了一个指导性的优化框架,以规范在采用适应深度先验立体渲染的情况下对 neRF 的采样过程。我们提出的系统显示了室内多视点深度估计的显著改进,令人惊讶的发现,基于对应的优化方法由于对流量对应的错误估计,会降低室内场景深度先验的质量。此外,我们还观察到引导优化改善了 NERF 的视图合成质量。
由于引导优化的优势,我们的优化速度比 NeRF 快3倍,但目前的方法仍然不够有效,因此难以扩展到大型数据集。尽管如此,我们的工作证明了使用神经辐射场进行精确深度估计的潜力。未来的工作包括有效的优化,非刚性重建和视觉效果的基础上改进的几何结构的学习神经辐射场。

  • 13
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值