MINE论文阅读

MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis

1.Introduction

	交互式 3D 场景是实现沉浸式用户体验的一种迷人方式,类似于增强/虚拟现实。为了自动化或简化 3D 场景的创建,越来越多的
努力投资于从单个或多个图像合成的新视图,该图像能够根据用户交互在任意相机姿势渲染。尽管它很有用,但新颖的视图合成
问题具有挑战性,因为它需要精确的几何理解和修复被遮挡的几何和纹理。
	为了解决新试图合成的问题,现在大多数问题都集中在3D或者2.5D的场景表达中,以及新试图的渲染技术。一个直接的想法就
是使用SFM(Structure-from-motion)或者多视图深度估计来恢复3D场景。但是,这种方法不足以获取准确的深度估计以及被
遮挡的区域,在渲染新试图会带来畸变和伪影。为了解决这个问题,使用更复杂的表示来从单个/多幅图像中恢复2.5D图像,这
些表示包括LDI,MPI与深度学习的使用。然而,2.5D方法通常分辨率受限,无法表示完整的3D场景。
	最近,MPI (1998) 表示引起了很多关注。具体来说,它是一个深度网络,与同一场景的其他图像视图监督,将 RGB 图像提升到
RGB 和 alpha 值的多个平面中。然后通过对平面执行单应扭曲和积分来呈现新颖的视图。尽管它取得了成功,

但 MPI 方法无法有效地表示连续的 3D 空间。它的深度分辨率受到离散平面数量的限制,因此 MPI 不能转换为其他 3D 表示,例如网、点云等。

相比之下,同时提出神经语言模型 (MLP) [29] 从图像中恢复 3D 信息。MLP 以 3D 位置和 2D 观看方向作为输入来预测该查询
位置的 RGB 和音量占用密度。尽管 NN 产生了高质量的 3D 结构和新颖的视图,但它必须在每个场景中进行训练,即一个 MLP 
只代表一个场景。

2.Related Work

	利用极线几何,[7,57,11]预测从对中的其他图像中恢复一张图像的逐像素差异。[11] 额外添加了一个左右一致性项来提高视差图
的质量。[61,53,25,54,12]提出使用单目视频进行自我监督。虽然深度估计和视图合成密切相关,但良好的深度估计结果并不能保
证良好的视图合成结果,反之亦然。我们表明,我们的方法在视图合成和深度估计方面都达到了最先进的性能。

	最近,NeRF [29] 显示了新视图合成的惊人结果。NeRF 通过将连续的 3D 坐标和 2D 观察方向映射到 RGB 值和体积密度的 4D 
输出来工作。已经提出了将 NeRF 改进为野外 [26] 和非刚性场景 [34] 中的图像的工作。但是,NeRF 需要针对每个场景进行优
化。PixelNerf[59]被提出来解决泛化问题,而不解决单图像尺度模糊问题。GRF [50] 是适用于多视图输入的另一个改进。[59,50] 
都没有在大规模真实世界数据集上进行实验。
	我们取NeRF和MPI这两个世界的优点,提出了一种新的3D表示,我们称之为MINE。我们的方法预测任何给定任意深度的 RGB-
σ 图像的平面,从而允许场景的连续/密集 3D 重建。与对网络权值中的场景几何进行编码的NeRF不同,我们的网络对输入图像
进行条件处理,从而可以推广到不可见的场景。

3.Our Approach

3.1.1 Planar Neural Radiance Field

使用几何透视方法来表示相机视锥体。以下是论文中对像素坐标,相机内参K,相机视锥体内坐标的描述:
这里还提到了平面神经辐射场的概念,与NeRF的神经辐射场稍有不同。

请添加图片描述

请添加图片描述
在这里插入图片描述

3.1.2 Volume Rendering

我们从两个方面对平面辐射场进行离散化:
a) 相机视锥体中包含N个平面
b)每个深度平面zi都为4-channel的image plane
离散化只是为了方便渲染。离散化表示仍然能够在任何3D位置获取RGB-σ之值。
Rendering the input image ˆIsrc.
使用与NeRF相似的体渲染,从第一个平面到第i个平面进行累计透射率;
NeRF:是从一个光源射线上采样点		
MINE:是从平面(x,y,z1)到平面上(x,y,zi)不会碰撞其他物体。

请添加图片描述

Rendering a novel view Itgt
主要分为下面三个steps:
1)应用一个单应性扭曲建立目标像素点与源像素点的联系。
2)体渲染需要该点的密度σ以及每一个点沿着射线的距离
3)最后通过公式2进行新视角的合成,将c',σ',δ'替换c,σ,δ
第2)步分为三个小步:
- Project a ray starting from camera center
- Slove intersection of that ray,with N planes
- Render the target pixel similiar to NeRF 

请添加图片描述

请添加图片描述
请添加图片描述

3.2 Network and Training Design

主要做的工作是Encoder-Decoder和Disparity Encoding.
Encoderd的输入为一幅图片,输出为Feature maps。
Decoder的输入为Feature maps和disparity(逆深度值),输出为source camera的相机视锥体。
说明1:Encoder和Decoder都是全卷积网络,Encoder就是采用的Resnet-50网络;Decoder是借鉴了monodepth2的逆深度模块。
说明2:这里的深度值并不是直接输入的,而是取倒数记做disparity,这里的disparity并不是指的双目视觉中的左右disparity。
Disparity Encoding:借鉴了NeRF等三篇文章,直接把disparity作为输入的表现不好,所以要把此单维度映射到L维度,然后再输入到decoder中。

在这里插入图片描述

3.3. Supervision with RGB Videos

多视图图像或 RGB 视频用于训练类似于 [51] 的网络。在训练过程中,根据新的视图摄像机旋转R和尺度校准的摄像机平移t ',将输入图像Isrc输入到网络中,然后渲染为(ˆItgt,ˆZtgt)。核心监督是通过将 ^Itgt 与地面实况目标图像 Itgt 进行比较。

3.3.1 Scale Calibration

深度尺度模糊到比例因子 s ∈ R+,因为我们系统的输入是单个图像。截锥重建的范围[zn, zf]被预定义为超参数,我们将其设为zn = 1, zf = 1000。我们不是缩放我们的3D表示,而是在训练和推理时将相机平移t缩放到t '。
为了解决比例因子s,我们对来自视频结构运动的稀疏3D点(SfM)和我们合成的Eq. 4深度图进行了尺度校准。具体来说,我们在每个视频上使用COLMAP运行SfM,得到每个图像的稀疏点集Ps = {(xj, yj, zj)}。这里的坐标遵循相同的视角几何,即[xj, yj]T是图像上的像素坐标,zj是对应的3D点的深度。在将源图像馈送到我们的网络并使用等式渲染预测的深度图ˆZsrc之后。Eq.4,类似于[51],尺度通过以下方式估计:
在这里插入图片描述

在这里插入图片描述

3.3.2 Loss Functions
第一个损失是 RGB-loss 这个就是简单计算每个像素点的颜色真实值与预测值的平均差值。第二个损失是 SSIM loss,SSIM 损		
失是一种用于图像质量评估的指标,SSIM 损失函数的全称是结构相似性指标,它是一种基于人眼视觉感知的图像质量评估方
法。值越大,相似度越大。第三个损失是 Edge-aware disparity map smoothness loss,这个损失是确保颜色没有突变的地方,
深度也不会突变,这里主要参考了 monodepth2 的实现。第四个损失是 Sparse disparity loss,在训练各场景的 scale 不一样
时,利用 structure from motion 获得的稀疏点云辅助场景几何信息的学习。这里参考的 single view with MPI。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

4.self-summary

MINE的话主要是结合了MPI和NeRF的优缺点,提出了以下三个创新点。
MPI和NeRF的缺点
NameDisadvantage
MPIsparse depths discretization
NeRFa)One MLP represents only one scene.
b)Times
Innovations
Innovations
Performs continuous and occlusion-inpainted 3D reconstruction from a single image.
Our MINE is a continuous depth generalization of the MPI by introducing the NeRF idea.
Significantly outperforms existing state-of-the-art methods in indoor and outdoor view synthesis and depth estimation. (pixelNeRF & GRF ).
Limitations
Limitations
Only takes a single image as input, thus it is physically impossible to reconstruct 3D space outside of the source camera frustum (though it’s theoretically possible to extend it to multi-view).
Does not take viewing directions as inputs, thus is unable to model complex view-dependent effects (can be extended with NeX’s idea).
Fairly heavy to train.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值