文献翻译阅读-NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Super__B

已于 2023-03-28 20:33:11 修改

阅读量650

点赞数 2

分类专栏： Nerf有关文章标签：计算机视觉人工智能数码相机 python

于 2023-03-28 17:53:26 首次发布

本文链接：https://blog.csdn.net/weixin_45507599/article/details/129813915

版权

Nerf有关专栏收录该内容

2 篇文章

订阅专栏

NeRF是一种使用全连接神经网络表示3D场景的新方法，通过优化连续的5D神经辐射场进行视角合成。它结合了位置编码、分层体积抽样和可微体渲染技术，提高了复杂场景的渲染质量和效率。相对于传统的体积渲染和基于图像的渲染方法，NeRF在处理高频率场景内容上有显著优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息

NeRF，即Neural Radiance Fields（神经辐射场）的缩写。研究员来自UCB、Google和UCSD。

Title：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Paper：https://arxiv.org/pdf/2003.08934.pdf

Code：https://github.com/bmild/nerf

简介

通过优化底层场景提出了一种新视角合成的方法，这种算法采用的是全连接的神经网络来映射场景向量，其中输入是连续的5D表示(位置信息 $(x, y, z)$ +视角方向( $\theta,\phi$ ))，输出是体积密度 $\sigma$ +该空间位置的视角相关的辐射(可以理解为color)。沿着相机光线查询5D表示来合成视图（使用经典的体渲染技术），该技术可微所以要求输入是一系列的已知相机姿势的照片。
前驱知识介绍：

体积密度 $\sigma$ ：不透明度即射线通过点 $(x, y, z)$ 累计的辐射量；
全程使用神经网络全连接，并未使用卷积层，用的是MLP(多层感知机)去学习神经辐射场这个函数；
位置编码：使得MLP可表达更高频函数-解决了分辨率低问题；
分层抽样：解决对高频场景需充分采样问题。
整体步骤：
- 使用相机光线穿过场景采样一系列3D点；
- 使用这些点和其相关的2D视角方向作为NN的输入产生 $\sigma$ 和颜色；
- 使用体渲染技术将 $\sigma$ 和颜色生成对应的2D图像；
- 用真实图像和生成图像做均方误差优化参数。
  收集上半球面的3D图像输入，即可生成各种位姿的新视角的2D图像

nerf优势

将具有复杂连续场景的表示为5D神经辐射场的方法，参数化为基本的MLP网络；
可微的体渲染技术优化标准的RGB图像值，分层抽样策略使得MLP的容量分配给可见场景内容的空间；
位置编码升维输入的5D坐标使得nerf可以表征更高频的场景内容。

方法

整体训练框架具体方法
1.沿相机射线采样5D坐标( $x,y,z,\theta,\phi$ )，其中视角用三维笛卡尔坐标 $d$ 表示；
2. 将位置信息给MLP生成对应的( $r,g,b,\sigma$ )；
3. 使用体渲染技术将( $r,g,b,\sigma$ )合成图像；
4. 体渲染函数可微，最小化合成图像和真实观测图像的残差来优化。
请添加图片描述

细节： $\sigma$ 只用位置信息 $x$ 预测，( $r, g, b$ )用位置信息 $x$ 和 $d$ 预测—MLP先用8层全连接(使用RELU激活函数、每层256个通道)，使得输入 $x$ 后输出 $\sigma$ +一个256维的特征向量 $v ec t or$ ；该 $v ec t or$ 再和相机射线方向 $d$ 作为输入送入另一个全连接层(RELU+128通道)，输出视角相关的RGB值。

体渲染技术（用离散形式表示连续积分）

参数说明：

$\sigma(x)$ —射线在 $x$ 处终止的概率即不透明度；
$r (t) = o + t d$ —射线 $r$ 的方向；
$C (r)$ —射线 $r$ 在时间起点到时间终点的预测颜色值；
$T (t)$ —沿 $t_{n}$ 到 $t$ 的射线累计透射率（即射线从 $t_{n}$ 到 $t$ 不撞击任何粒子的概率）可以理解为光线射到这“还剩多少光”；
$\sigma(t)$ —表示不透明度；
$\delta_{i}=t_{i+1}-t_{i}$ —是相邻样本的距离；

积分形式：请添加图片描述
公式也说明密度只与位置信息有关；颜色与位置信息和观测方向都有关系。
如何沿着射线对空间中的颜色进行积分？

一个点的密度越高，射线通过它之后变得越弱，密度和透光度呈反比；
一个点的密度越高，这点在这个射线下的颜色反应在像素上的权重越大；

分层抽样:把 $t_{n},t_{f}]$ 均匀N等分，然后每个小区间随机抽一个样本 $t_{i}$ 请添加图片描述 离散形式：

请添加图片描述注意：原来的积分权重是 $T(t)\sigma(r(t))$ ，离散的形式是 $T_{i}(1-exp(-\sigma_{i}\delta_{i}))$ ，而 $1-exp(-\sigma_{i}\delta_{i})$ 是和密度 $\sigma_{i}$ 呈正比的。

优化神经场的技术

位置编码

问题：尽管MLP可以无限逼近真实函数，但是在颜色和几何图像的高频变化下依然存在表现很差，如红圈图像部分直接模糊—由Rahaman的工作知深度神经网络倾向于学习低频部分。
解决方案：将输入先用高频函数映射到更高维可见，可以更好拟合包含高频变化的数据。所以把神经网络函数由两个函数组成： $F_{\Theta}=F_{\Theta}^{'}\circ\Upsilon$ 。
其中 $F_{\Theta}^{'}$ 是常规的MLP函数， $\Upsilon$ 是一个映射函数-实现高维编码器作用。
请添加图片描述 $\Upsilon(\cdot)$ 作用于每一个分量： $(x, y, z)$ 和 $d$ ，并且归一化到 $[- 1, 1]$ ，在文章中 $L$ 值对于 $\Upsilon(x)$ 取10（相当于原来的3维增加了7维），对于 $\Upsilon(d)$ 取4。

分层体积抽样

问题：对渲染图像没有贡献的自由空间和遮挡区域仍然被重复采样+空间的密度分布不均匀，如果射线均匀随机采样的话，渲染效率会比较低。并且从上面分析可知道，整个渲染过程就是对射线的采样点颜色进行加权求和，其中权重是 $w_{i}$ 。
解决方案：用两个网络表示场景：“粗”+“细”
对渲染公式中的颜色权重 $w_{i}$ 作为对应区间采样的概率，我们训练两个辐射场网络，一个粗糙网络（Coares）一个精细网络（Fine）。粗糙网络是在均匀采样得到比较少( $N_{c}$ )的点进行渲染并训练的网络，用来对输出 $w_{i}$ 进行采样概率估计。—重写了离散函数形式如下所示：

请添加图片描述再将结果归一化： $\widehat{w}_{i}=w_{i}/\sum\limits_{j=1}^{N_{c}}w_{j}$ ，以 $\widehat{w}_{i}$ 为概率分布采样 $N_{f}$ 个点，用 $N_{c}+N_{f}$ 个点来训练精细网络。

实施细节

用COLMAP运动包可以估计真实摄像机姿态、参数…损失只是粗略和精细渲染的渲染颜色和真实像素颜色之间的总平方误差。
请添加图片描述 $R$ 是每批次中的射线集合， $C (r) 是光线 r 的真实地面情况$ ， $\hat{C}_{c}(r)$ 是粗略的颜色估计， $\hat{C}_{f}(r)$ 是精细的颜色估计（尽管最终的颜色来自 $\hat{C}_{f}(r)$ ，本文依旧选择了最小化粗网络的损失，从而可以使得来自粗网络的权重分布来分配精细网络的样本）。
实验参数设置：

使用4096条射线的批量大小；
每条射线在粗略体积中以 $N_{c}$ =64个坐标采样；
在精细体积中以 $N_{f}$ =128个附加坐标采样；
Adam优化器：lr— $5\times10^{-4}$ 到 $5\times10^{-5}$ ， $\beta_{1}$ =0.9， $\beta_{2}$ =0.999， $\epsilon=10^{-7}$