21、MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo

最新推荐文章于 2024-04-26 09:30:18 发布

C--G

最新推荐文章于 2024-04-26 09:30:18 发布

阅读量920

点赞数

分类专栏： # 3D重建文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_50973728/article/details/126500912

版权

3D重建专栏收录该内容

113 篇文章 84 订阅

订阅专栏

简介

主页：https://apchenstu.github.io/mvsnerf/
在这里插入图片描述
提出了一种新的神经渲染方法MVSNeRF，它可以有效地重建用于视图合成的神经辐射场。与先前关于神经辐射场的工作不同，这些工作考虑对密集捕获的图像进行逐场景优化，提出了一种通用的深度神经网络，该网络可以通过快速网络推理仅从三个附近的输入视图重建辐射场。利用plane-swept cost volumes(广泛用于multi-view stereo)进行几何感知场景推理，并将其与基于物理的体渲染相结合进行神经辐射场重建

Multi-view stereo

MVS是一个经典的计算机视觉问题，旨在使用从多个视点捕获的图像实现密集的几何结构重建dense geometry reconstruction

深度学习技术已被引入解决MVS问题。MVSNet 在参考视图的平面扫描成本体积上应用3D CNN进行深度估计，实现了优于经典传统方法的高质量3D重建

实现流程

在这里插入图片描述
首先通过将二维图像特征扭曲到平面扫描上来构建一个cost volume(a)。然后，我们使用3D CNN来重建一个带有每个体素神经特征的neural encoding volume。我们使用MLP来回归任意位置的体积密度和RGB亮度，使用从encoding volume中插值的特征。这些体积特性被用于可微射线行进的最终渲染©。
在这里插入图片描述
x代表3d位置，d是视图方向，σ是x方向的体密度，r是x处的输出亮度(RGB颜色)取决于观察方向d，捕获图像Ii，新视角相机参数Φi

Cost Volume

将m个输入图像中的2D图像特征扭曲到参考视图的挫折面上的一个平面扫描体，在参考视图reference view(i = 1)构建了一个cost volume P，允许几何感知场景理解

Extracting image features

使用深度二维CNN T来提取各个输入视图的二维图像特征，从而有效地提取代表局部图像外观的二维神经特征，使用下采样卷积层将图像Ii（H x W x 3）卷积为特征图Fi（H/4 x W/4 x C），C为通道数
在这里插入图片描述

Warping feature maps

通过给定的相机的内外参数Φ = [K, R, t]进行同形扭曲
在这里插入图片描述
Hi（z）为视图i到深度z的参考视图的扭曲矩阵，K为本征矩阵，R和t是相机旋转矩阵和平移矩阵，所以特征图都进行如下变换

Fi,z 为深度z处的扭曲特征图，（u，v）为参考视图中的像素位置，在这里，使用参考视图中的归一化设备坐标 (NDC)来参数化(u，v，z)。

Cost volume

cost volumeP由D 扫描平面(sweeping planes)的扭曲特征图(warped feature maps)构造而成，利用基于方差的度量（variance-based metric）来计算成本（cost），对于以(u，v，z)为中心的P中的每个体素voxel，其成本特征向量cost feature vector由下式计算
在这里插入图片描述
Var计算M个视图的方差，这种基于方差的成本体对不同输入视图上的图像外观变化进行编码；这解释了由场景几何体和视图相关的着色效果shading effects引起的外观变化

Radiance field reconstruction

利用3D CNN B从原始2D image feature costs的cost volume P中重建neural encoding volume S；S由编码局部场景几何形状和外观的每个体素特征组成。MLP decoder A 用于从该编码体回归体渲染属

Neural encoding volume

训练一个深度3D CNN B，将构建的image-feature cost volume转换为新的C通道神经特征体积 S，其中特征空间由网络自身学习和发现，用于后续的体积属性回归
在这里插入图片描述
3D CNN B是一个具有下采样和上采样卷积层和跳跃连接的3D UNet，可以有效地推断和传播场景外观信息，从而产生有意义的场景编码体S，网络可以学习在每个体素的神经特征中编码有意义的场景几何和外观；这些特征随后被连续地内插和改变