RegNeRF:通过正则化神经辐射场达到稀疏输入的视图合成
论文地址:RegNeRF
回顾:NeRF
NeRF 训练了一个网络,网络包含5D的输入,包括像素点的位置 和观察方向
,输入到神经辐射场
中,得到颜色
和密度值
的输出,最后再通过体渲染得到最终的图像。
但是我们可以看到,NeRF 需要大量的输入图像,整个半球上都有大量的相机来获取不同视角的输入图像,因此产生了一个问题,就是在现实场景中,我们几乎不太可能有这么密集的输入图像.
基于此,这篇论文的研究目的就是在稀疏输入视图下进行视图合成。
稀疏输入的视图合成
提出问题:如果输入视图的数量稀疏,NeRF的性能会显著下降。
出现伪影的主要原因:
- 场景几何估计错误
- 训练开始时的发散行为
改进措施:
- 对从未观察到的viewpoint渲染的patches的进行几何正则化
- 在训练过程中对射线采样空间进行退火(annealing)
- 使用归一化流模型(normalizing flow model)来进行颜色正则化
Model: RegNeRF
![](https://i-blog.csdnimg.cn/blog_migrate/7ac4295824c060539c937ff9e49e260b.png)
我们有一组相机位置的集合,它包含了很多不同的相机位姿,但其中只有少量是已经观察到的相机,也就是蓝色的这些,我们已知他们的图像。现在要做的就是从这些未知的红色相机来进行采样,向场景投射光线,采样这条红色射线上的点,输入到神经辐射场 ,得到颜色
和密度
。
我们把视图随机分为一些patch,对patch中每个像素进行采样,得到一个预测的 RGB 颜色的patch 和一个depth patchd
,然后对rgb patch进行外观正则化,depth patch进行场景几何正则化。
几何正则
先验:现实世界的几何结构往往是分段平滑的,即平面结构比高频结构更可能。
深度计算方法(类似于NeRF):
鼓励深度平滑,depth smoothness loss:
颜色正则
核心思想:估计渲染块的对数似然函数(LL),并在优化过程中对其进行最大化。
使用非结构化2D图像数据集,包含不同的自然图像,使得能够对重建的任何类型的真实世界场景重复使用相同的流模型。
使用RealNVP中的流模型估计渲染块的负对数似然NLL,定义颜色正则化损失为:
Total Loss
采样空间退火
思想:在最初的迭代过程中,将场景采样空间限制在更小的区域。
刚刚提到作者认为NeRF性能下降的主要原因:场景几何估计错误和训练开始时的发散行为。几何估计错误通过几何正则化解决,那么训练开始时的发散,作者发现可以通过采样空间退火来避免这一问题。
![](https://i-blog.csdnimg.cn/blog_migrate/8f867b51332b09ae9bfde64eea3fcc61.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bc50e311c394df1b33616cf6405824fb.png)
mip-NeRF
NeRF在渲染过程中,只对相机位置固定、改变观察方向的视角生成上表现较好,如果拉近或者拉远图像,(NeRF在做渲染时)会出现模糊(blurred)和锯齿(aliased)的情况。NeRF每像素只投射一条光线,而mip-NeRF则投射一个圆锥体。
mip-NeRF相对于NeRF而言主要有两个改进:
- 用圆锥取代光线
- 把nerf的coarse和fine这两个MLP用一个multiscale MLP替代,从而提高训练速度并减小模型大小
故论文中使用mip-NeRF代替NeRF。
实验
消融实验
总结
- 提出一种稀疏输入场景模型的新方法——RegNeRF
- 从未观察到的视点渲染几何形状和外观,并在训练期间对射线采样空间采用退火策略
- 使用规范化流模型来正则化颜色,使用深度平滑来正则化几何