NeRF学习笔记(含公式、图解和过程)

最新推荐文章于 2024-03-17 20:41:30 发布

平平无奇小扑街

最新推荐文章于 2024-03-17 20:41:30 发布

阅读量3.5k

点赞数 7

分类专栏： NeRF 文章标签：计算机视觉人工智能图形渲染深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_45692621/article/details/125089230

版权

NeRF 专栏收录该内容

1 篇文章 3 订阅

订阅专栏

NeRF学习笔记

关注公众号，不定期分享NeRF相关文献。
在这里插入图片描述

引言

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis作为2020年ECCV的一篇论文，在用深度学习完成图形学中非常重要的渲染任务上作出了很重要的贡献。此学习笔记主要分为以下几个部分：

1.问题的提出

2.NeRF工作的Pipeline

3.NeRF详细工作的解析

①Neural Radiance Field Scene Representation

②Volume Rendering with Radiance Fields

③Positional encoding

④Hierarchical volume sampling

⑤Implementation details

4.参考文献

1.问题的提出

视角合成方法通常使用一个中间3D场景表征作为中介来生成高质量的虚拟视角，如何对这个中间3D场景进行表征，分为了“显示表示“和”隐式表示“，然后再对这个中间3D场景进行渲染，生成照片级的视角。

“显示表示”3D场景包括Mesh，Point Cloud，Voxel，Volume等，它能够对场景进行显式建模，但是因为其是离散表示的，导致了不够精细化会造成重叠等伪影，更重要的是，它存储的三维场景表达信息数据量极大，对内存的消耗限制了高分辨率场景的应用。

”隐式表示“3D场景通常用一个函数来描述场景几何，可以理解为将复杂的三维场景表达信息存储在函数的参数中。因为往往是学习一种3D场景的描述函数，因此在表达大分辨率场景的时候它的参数量相对于“显示表示”是较少的，并且”隐式表示“函数是种连续化的表达，对于场景的表达会更为精细。

NeRF做到了利用”隐式表示“实现了照片级的视角合成效果，它选择了Volume作为中间3D场景表征，然后再通过Volume rendering实现了特定视角照片合成效果。可以说NeRF实现了从离散的照片集中学习出了一种隐式的Volume表达，然后在某个特定视角，利用该隐式Volume表达和体渲染得到该视角下的照片。

2.NeRF工作的Pipeline

简单的来说，NeRF工作的过程可以分成两部分：三维重建和渲染。

Ⅰ、三维重建部分本质上是一个2D到3D的建模过程，利用3D点的位置（x，y，z）及方位视角（θ，φ）作为输入，通过多层感知机（MLP）建模该点对应的颜色color（c）及体素密度volume density（σ），形成了3D场景的”隐式表示“。（详情看①Neural Radiance Field Scene Representation部分，即下图的红框部分）
在这里插入图片描述

Ⅱ、渲染部分本质上是一个3D到2D的建模过程，渲染部分利用重建部分得到的3D点的颜色及不透明度沿着光线进行整合得到最终的2D图像像素值。（详情看②Volume Rendering with Radiance Fields部分，即下图的红框部分）
在这里插入图片描述

Ⅲ、在训练的时候，利用渲染部分得到的2D图像，通过与Ground Truth做L2损失函数（L2 Loss）进行网络优化。（即下图的红框部分）
在这里插入图片描述

3.NeRF详细工作的解析

①Neural Radiance Field Scene Representation

该部分的输入是三维位置(x，y，z)和二维方位视角(θ，φ)，输出是颜色c=(r，g，b)和体素密度σ，即利用一个MLP网络近似地表示这种映射F：(x，d) -> (c，σ)，这个映射F就是一种3D场景的”隐式表示“。

该MLP网络先使用8个全连接层处理三维位置(x，y，z)，输出体素密度σ和256维特征向量(因此体素密度σ仅是关于三维位置(x，y，z)的函数)；然后将上面得到的256维特征向量与二维方位视角(θ，φ)concat，接着用4个全连接层处理，输出颜色c=(r，g，b)。（当然，这里预处理需要使用高频位置编码，详细信息看③Positional encoding部分）

该部分即下图红框部分：
在这里插入图片描述

②Volume Rendering with Radiance Fields

该部分使用经典体渲染(Volume Rendering)的原理渲染通过场景的任何光线的颜色，即下面这条式子：
$C(r)=\int_{t_n}^{t_f}T(t)σ(r(t))c(r(t), d)dt,whereT(t)=\int_{t_n}^{t}σ(r(s))ds$
其中函数T(t)表示射线从tn到t沿射线累积透射率，即射线从tn到t不碰到任何粒子的概率。从①中建模的Neural Radiance Field中绘制视图，需要估计通过所需虚拟相机的每个像素跟踪的相机光线的积分C®，然而①中建模后选取了Volumn作为3D中间表示，势必会使用到离散求积法对这个连续积分进行数值估计，这会极大地限制表示的分辨率，因此可通过分层抽样方法（详细信息看④Hierarchical volume sampling部分）的方法，使得即使使用离散的样本估计积分，但是能够较好地表示一个连续的场景（类似重要性采样，对整个积分域进行非均匀离散化，较能还原原本的积分分布）。

其中离散化式子为：
$\hat C(r)=\sum_{i=1}^NT_i(1-exp(-\sigma_i\delta_i))c_i,whereT_i=exp(-\sum_{j=1}^{i-1}\sigma_j\delta_j)$
该部分即下图红框部分：
在这里插入图片描述

③Positional encoding

该部分中指出尽管神经网络是通用的函数近似器，但是他们发现，让①中的MLP网络(F：(x，d) -> (c，σ))直接操作 (x，y，z，θ，φ)输入会导致渲染在表示颜色和几何形状方面的高频变化方面表现不佳，表明深度网络偏向于学习低频函数。因此在将(x，y，z，θ，φ)输入传递给网络之前，使用高频函数将输入映射到更高维度的空间，可以更好地拟合包含高频变化的数据。该高频编码函数为：
$\gamma(p)=(sin(2^0\pi p),cos(2^0\pi p),...,sin(2^{L-1}\pi p),cos(2^{L-1}\pi p))$
这个高频编码函数有点类似傅里叶级数的方式，其中p就是(x，y，z，θ，φ)输入，并且输入均归一化于[-1，1]，在实验中针对于(x，y，z)输入取L=10，针对于(θ，φ)输入取L=4，即：
$\gamma((x,y,z))=(sin(2^0\pi (x,y,z)),cos(2^0\pi (x,y,z)),...,sin(2^{9}\pi (x,y,z)),cos(2^{9}\pi (x,y,z)))$