Mip-NeRF论文笔记(更新中)

顾默@

已于 2024-04-01 14:00:28 修改

阅读量757

点赞数 9

文章标签：论文阅读

于 2024-03-27 15:45:31 首次发布

本文链接：https://blog.csdn.net/weixin_53765004/article/details/137076228

版权

Mip-NeRF：抗混叠神经辐射场的多尺度表示

专有名词：

①低通滤波(Low-pass filter) ：是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。
②奈奎斯特频率（Nyquist frequency）：是为防止信号混叠需要定义最小采样频率
③奈奎斯特采样定理又称香农采样定理：为了不失真地恢复模拟信号，采样频率应该大于模拟信号频谱中最高频率的2倍。
注：采样过程产生一系列的数字，称为样本。样本代表了原来地信号。每一个样本都对应着测量这一样本的特定时间点，而采样间隔的倒数，1/T即为采样频率，fs，其单位为样本/秒，即赫兹(hertz)。
注：对于带限信号进行离散采样时，只有采样频率高于其最高频率的2倍，(即一个周期内，至少采2个点)，我们才能从采样信号中很好地恢复原始带限信号。此处最高频率的2倍叫奈奎斯特频率 (Nyquist frequency)。若采样频率不满足此条件，就会让原始信号产生混叠现象，从而无法很好恢复原始信号。

摘要

神经辐射场（NeRF）使用的渲染过程以每个像素单个射线对场景进行采样，因此当训练或测试图像以不同分辨率观察场景内容时，可能会产生过度模糊或混叠的渲染。对于NeRF来说，通过每个像素渲染多条射线来实现超分辨率的简单解决方案是不切实际的，因为渲染每条射线需要查询多层感知器数百次。在这里插入图片描述

我们的解决方案，我们称之为“mip-NeRF”，扩展了NeRF以连续值尺度表示场景。通过有效地渲染抗锯齿的截头圆锥体而不是射线，mip-NeRF减少了令人讨厌的锯齿伪影，并显着提高了NeRF表示精细细节的能力，同时比NeRF快7%，尺寸减半。与NeRF相比，mip-NeRF在NeRF提供的数据集上将平均错误率降低了17%，在我们提供的具有挑战性的多尺度数据集上降低了60%。Mip-NeRF还能够在我们的多尺度数据集上匹配蛮力超采样NeRF的精度，同时速度提高22倍。

一、 Introduction

神经体积表示，如神经辐射场（NeRF）已经成为一种引人注目的策略，用于学习从图像中表示3D对象和场景，以渲染照片级逼真的新视图。虽然NeRF及其变体在一系列视图合成任务中表现出令人印象深刻的结果，但NeRF的渲染模型存在缺陷，可能会导致过度模糊和混叠。NeRF用连续的体积函数取代了传统的离散采样几何形状，参数化为多层感知器（MLP），从输入的5D坐标（3D位置和2D观察方向）映射到该位置的场景属性（体积密度和视图相关的发射辐射）。为了呈现像素的颜色，NeRF投射一条光线穿过该像素并进入其体积表示，在沿着该射线的沿着采样处查询MLP的场景属性，并将这些值合成为单一颜色。
虽然这种方法从大致恒定的距离观察场景内容时在所有训练和测试图像中效果良好（如NeRF和大多数后续作品中所做的那样），但NeRF渲染在不太人为的场景中表现出明显的伪影。当训练图像以多个分辨率观察场景内容时，恢复的NeRF的渲染在特写视图中显得过于模糊，并且在远景中包含混叠伪影。一个简单的解决方案是采用离线光线跟踪中使用的策略：通过使多条光线穿过其足迹来超级扫描每个像素。但这对于NeRF等神经体积表示来说是非常昂贵的，它需要数百个MLP评估来渲染单个光线，并需要几个小时来重建单个场景。
在本文中，我们采取的灵感来自于mipmapping方法，用于防止在计算机图形渲染管道混叠现象。
如图：因为采样而出现混叠现象
在这里插入图片描述
mipmap以一组不同的离散下采样比例表示信号（通常是图像或纹理贴图），根据像素轮廓投影到由光线覆盖的几何体上，选择用于该光线的适当比例。这种策略被称为预过滤，因为抗锯齿的计算负担从渲染时间（如在强力超级渲染解决方案中）转移到预计算阶段-----对于给定的纹理，只需要创建一次mipmap，而不管该纹理被渲染多少次。
我们的解决方案，我们称之为mip-NeRF（小中见大 NeRF，as“mipmap”），扩展NeRF同时表示尺度的连续空间预过滤辐射场。mip-NeRF的输入是一个3D高斯，它表示辐射场应该被积分的区域。如图1所示，在这里插入图片描述
图一：NeRF（a）沿着从摄像机投影中心通过每个像素追踪的射线对点x进行沿着采样，然后用位置编码（PE）γ对这些点进行编码以产生特征γ（x）。Mip-NeRF（b）替代地推理相机像素定义的3D圆锥截头体。这些圆锥截头体然后用我们的集成位置编码（IPE）进行特征化，其工作原理是用多元高斯近似截头体，然后在高斯内的坐标的位置编码上计算（封闭形式）积分E[γ（x）]。

我们可以通过沿着圆锥的间隔查询mip-NeRF来渲染预过滤的像素，使用高斯近似对应于像素的截头圆锥体。为了对3D位置及其周围的高斯区域进行编码，我们提出了一种新的特征表示：集成位置编码（IPE）。这是NeRF的位置编码（PE）的推广，它允许空间区域被压缩特征化，而不是空间中的单个点。
Mip-NeRF大大提高了NeRF的准确性，并且在以不同分辨率观察场景内容的情况下（即相机移动到离场景更近和更远的设置），这种好处甚至更大。在我们提出的具有挑战性的多分辨率基准测试中，mip-NeRF能够将错误率相对于NeRF平均降低60%（见图2的可视化）。
在这里插入图片描述
图2：（a，顶部）在全分辨率图像上训练的NeRF能够在新的视图位置产生照片级真实感渲染，但仅限于训练图像的分辨率或比例。（a，底部）将相机拉回并放大（或类似地，调整相机内部函数以降低图像分辨率，如此处所做）会导致呈现严重混叠的渲染。(b)在多分辨率图像上训练NeRF稍微改善了这个问题，但会导致跨尺度的低质量渲染：全分辨率下模糊，低分辨率下“锯齿状”。©MipNeRF也接受过多分辨率图像的训练，能够在不同尺度上生成逼真的渲染。每个图像相对于地面实况（d）的SSIM是插入的，两个尺度的最高SSIM以红色显示。

Mip-NeRF的尺度感知结构还允许我们将NeRF用于分层采样的单独的“粗”和“细”MLP合并为单个MLP。因此，mip-NeRF比NeRF稍快（约7%），参数也只有NeRF的一半。

二、Related Work

我们的工作直接扩展了NeRF ，这是一种非常有影响力的技术，用于从观察到的图像中学习3D场景表示，以合成新颖的照片级真实感视图。在这里，我们回顾了计算机图形和视图合成所使用的3D表示，包括最近引入的连续神经表示，如NeRF，重点是采样和混叠。
Anti-aliasing in Rendering
采样和混叠是计算机图形学中绘制算法发展过程中广泛研究的基本问题。减少锯齿伪影（“抗锯齿”）通常通过超采样或预滤波来完成。基于超采样的技术在渲染时每个像素投射多条光线，以便更接近奈奎斯特频率进行采样。这是一种减少混叠的有效策略，但代价很高，因为运行时通常会和超级采样率成线性比例。因此，超采样通常仅在离线渲染环境中使用。基于预滤波的技术不是采样更多光线以匹配奈奎斯特频率，而是使用场景内容的低通滤波版本来降低渲染场景所需的奈奎斯特频率而不产生混叠。预过滤技术更适合实时渲染，因为场景内容的过滤版本可以提前预先计算，并且可以根据目标采样率在渲染时使用正确的“比例”。在渲染的上下文中，预滤波可以被认为是跟踪一个圆锥体而不是通过每个像素的光线：无论圆锥体与场景内容相交在哪，场景内容的预计算多尺度表示（例如稀疏体素八叉树或mipmap）都将以与圆锥体足迹相对应的尺度进行查询。
我们的工作从图形中的这一系列工作中汲取灵感，并为NeRF提供了多尺度场景表示。我们的策略在两个关键方面不同于传统图形管道中使用的多尺度表示。首先，我们无法预先计算多尺度表示，因为在我们的问题设置中，场景的几何形状是未知的-----我们正在使用计算机视觉恢复场景的模型，而不是渲染预定义的CGI资产。因此，Mip-NeRF必须在训练期间学习场景的预过滤表示。第二，我们的尺度概念是连续的，而不是离散的。mip-NeRF不是使用固定数量尺度的多个副本来表示场景（如在mipmap中），而是学习可以在任意尺度下查询的单个神经场景模型。
Scene Representations for View Synthesis
已经提出了各种场景表示视图合成的任务：使用观察到的图像的场景，以恢复表示，支持从未观察到的摄像机视点渲染新的真实感图像的场景。当场景的图像被密集捕获时，光场插值技术可以用于渲染新视图，而无需重建场景的中间表示。与采样和混叠相关的问题已在此设置中进行了深入研究。
从稀疏捕获的图像合成新视图的方法通常重建场景的3D几何形状和外观的显式表示。许多经典的视图合成算法沿着与漫反射或视图相关纹理使用基于网格的表示。基于网格的表示可以有效地存储，并且自然地与现有的图形渲染管道兼容。然而，使用基于梯度的方法来优化网格几何形状和拓扑结构通常是困难的，由于不连续性和局部最小值。因此，体积表示对于视图合成已经变得越来越流行。早期的方法直接使用观察到的图像对体素网格进行着色，而更多最近的体积方法使用基于梯度的学习来训练深度网络以预测场景的体素网格表示。基于离散体素的表示对于视图合成是有效的，但是它们不能很好地缩放到更高分辨率的场景。
计算机视觉和图形研究中的最近趋势是用基于坐标的神经表示来取代这些离散表示，其将3D场景表示为由MLP参数化的连续函数，该MLP从3D坐标映射到该位置处的场景属性。最近的一些方法使用基于坐标的神经表示将场景建模为隐式表面，但大多数最近的视图合成方法都基于体积NeRF表示。NeRF启发了许多后续的作品，这些作品将其连续神经体积表示扩展为生成建模，动态场景，非刚性变形对象，具有变化照明和遮挡物的摄影旅游设置，以及用于重新照明的反射率建模。
相对较少的注意力已经给了使用基于坐标的神经表示的视图合成中上下文中的采样和混叠问题。用于视图合成的离散表示，例如多边形网格和体素网格，可以使用传统的多尺度预过滤方法（例如mipmap和八叉树）有效地渲染而不会产生混叠。然而，用于视图合成的基于坐标的神经表示目前只能使用超采样进行抗锯齿，这加剧了它们已经很慢的渲染过程。Takikawa等人最近的工作。[42]提出了一种基于稀疏体素八叉树的多尺度表示，用于隐式表面的连续神经表示，但他们的方法要求场景几何形状是先验已知的，而不是我们的视图合成设置，其中唯一的输入是观察到的图像。Mip-NeRF解决了这一开放性问题，在训练和测试过程中实现了反锯齿图像的高效渲染，并在训练过程中使用了多尺度图像。
2.1. Preliminaries: NeRF
NeRF使用多层感知器（MLP）的权重将场景表示为阻挡和发射光的粒子的连续体积场。NeRF如下渲染相机的每个像素：射线r（t）= o + td从相机的投影中心o沿着方向d发射，使得其穿过像素。采样策略（稍后讨论）用于确定相机的预定义近平面tn和远平面tf之间的排序距离t的向量。对于每个距离tk ∈ t，我们计算其沿射线x = r（tk）的相应3D位置，然后使用位置编码来变换每个位置：
在这里插入图片描述
对比一下NeRF中位置编码的公式如下：

这仅仅是三维位置 x 的每个维度的正弦和余弦的连接，由从1到2^(L-1)的2次幂进行缩放，其中 L 是一个超参数。NeRF 的保真度关键取决于位置编码的使用，因为它允许将场景参数化的 MLP 表现为插值函数，其中 L 决定插值核的带宽。将每个射线位置 γ (r (tk))的位置编码提供给一个以权重 Θ 为参数的 MLP，该 MLP 输出密度 τ 和 RGB 颜色 c:
在这里插入图片描述
MLP 还将视图方向作为输入，为了简单起见，在表示法中省略了视图方向。这些估计的密度和颜色被用来使用数值积分来近似立体渲染积分，如Max所描述的那样 :

其中C (r; Θ，t) 是最终预测的像素颜色。
有了这个由 Θ 参数化的 NeRF 渲染过程，训练一个 NeRF 是很简单的: 使用一组已知摄像机姿态的观察图像，我们使用梯度下降法最小化所有输入像素值和所有预测像素值之间的平方差的总和。为了提高抽样效率，NeRF 训练了两个不同的 MLP，一个是“粗”，一个是“精”，参数为Θc and Θf::
在这里插入图片描述
其中 C * (r)是从输入图像中观察到的像素颜色，R 是所有图像中所有像素/光线的集合。Mildenhall等人通过用分层抽样取样64个均匀间隔的随机 t 值来构建 t^c。然后将“粗糙”模型得到的合成权重
作为描述可见场景内容分布的分段常数 PDF，采用逆变换抽样方法从该 PDF 中抽取128个新的 t 值，生成 t^f。然后将这192 个t 值的并集进行排序并传递给“精细”MLP，以生成最终预测的像素颜色。

三、 Method

正如我们所讨论的，NERF 的点采样使它容易受到与采样和混叠有关的问题的影响: 虽然一个像素的颜色是整合像素平截体内的所有入射光线，NERF 在每个像素投射一个无限小的光线，导致混叠。Mip-NeRF 通过从每个像素投射一个圆锥来改善这个问题。取代沿着每条射线进行点采样，我们将被铸造的锥体分割成一系列的锥形截面(锥体切割垂直于它们的轴线)。在此基础上，我们不再从空间中的无穷小点构造位置编码(PE)特征，而是构造了圆锥体所覆盖体积的集成位置编码(IPE)表示。这些变化使 MLP 能够推断出每个圆锥体的大小和形状，而不仅仅是它的质心。由于 NERF 对尺度不敏感和 mip-NERF 对这个问题的解决方案导致的模糊性如图3所示。
在这里插入图片描述
图3: NeRF 的工作原理是沿着每个像素的光线提取点采样的位置编码特征(在这里显示为点)。这些点采样特征忽略了每条射线所看到的体积的形状和大小，因此两个不同的摄像机在不同的尺度下成像同一位置可能会产生相同的模糊点采样特征，从而显著降低 NeRF 的性能。相比之下，Mip-NeRF 铸造的是锥体而不是射线，并且显式地模拟了每个采样锥体的体积(这里显示为梯形) ，从而解决了这种模糊性。

这种锥形平台和 IPE 特性的使用也允许我们将 NeRF 的两个独立的“粗”和“精”MLP 减少到一个单一的多尺度 MLP，这增加了训练和评估速度，并将模型大小减少了50% 。
3.1. Cone Tracing and Positional Encoding
在这里，我们描述 mip-NeRF 的渲染和特征化过程，其中我们铸造了一个圆锥体，并沿着该圆锥体特征化圆锥截面。与 NeRF 一样，mip-NeRF 中的图像一次呈现一个像素，因此我们可以根据所呈现的利益的单个像素来描述我们的过程。对于那个像素，我们从投影的相机中心O沿着穿过像素中心的方向 d 投射一个圆锥。该锥的顶点位于O，，锥的半径在图像平面 o + d 处被参数化为 r上点。我们将r上点设置为世界坐标中像素的宽度，按2/√12进行缩放，得到一个锥体，其在图像平面上的截面在 x 和 y 上有一个方差，与像素占用的方差相匹配。位于两个 t 值 t0，t1之间的圆锥体内的位置 x 的集合是: 在这里插入图片描述
其中1{ · }是一个指示函数: F (x，·) = 1当 x 在(o，d，r上点，t0，t1)定义的锥截面内。
我们现在必须构造一个在这个圆锥体内的体积特征化表示。理想情况下，这种特征化表示应该是类似于在 neRF 中使用的位置编码特征的形式，正如Mildenhall等人指出的那样，这种特征表示对于 neRF 的成功是至关重要的。有很多可行的方法可以解决这个问题(参见附录中的进一步讨论) ，但是我们发现的最简单和最有效的解决方案是简单地计算圆锥体内所有坐标的预期位置编码: 在这里插入图片描述
然而，目前还不清楚如何有效地计算这样一个特征，因为分子中的积分没有封闭形式的解。因此，我们用一个多变量高斯近似圆锥体截面，这允许一个有效的近似所需的特征，我们将称之为“集成位置编码”(IPE)。
为了用多元高斯函数逼近锥形截面，我们必须计算 F (x，·)的均值和协方差。因为每个圆锥体都被假定为圆形，并且因为圆锥体是围绕圆锥体的轴对称的，这样的高斯完全可以用三个值来描述(除了 o 和 d 之外) : 沿射线 μt 的平均距离，沿射线 σt^2 的方差，以及垂直于射线 σr ^2的方差:
在这里插入图片描述
这些量相对于中点 tμ = (t0 + t1)/2和半宽 tδ = (t1-t0)/2而被参数化,这对数值稳定性是至关重要的。详细推导请参阅附录。我们可以把这个高斯从圆锥体的坐标系转换成如下的世界坐标:

给出了最终的多元高斯分布。
接下来，我们推导出 IPE，它是按照上述高斯分布的位置编码坐标的期望推导的。要做到这一点，首先将方程1中的 PE 重写为傅立叶特征是有帮助的 :
在这里插入图片描述
这个重新参数化允许我们为 IPE 导出一个封闭的形式。利用变量线性映射的协方差是变量协方差的线性映射这一事实
我们可以识别我们的圆锥体高斯的平均值和协方差，在它被提升到 PE 基础 P之后:

生成 IPE 特征的最后一步是计算由位置的正弦和余弦调制的提升多元高斯的期望值。这些期望有简单的封闭式表达:

在这里插入图片描述
我们可以看到这个期望的正弦或余弦只是平均值的正弦或余弦被方差的高斯函数减弱。通过这个我们可以计算出最终的 IPE 特征，即协方差矩阵的平均值和对角线的预期正弦和余弦:

O 表示元素相乘。由于位置编码独立地编码每个维度，这种预期的编码只依赖于 γ (x)的边缘分布，并且只需要协方差矩阵的对角线(每个维度的方差向量)。因为 Σγ 的大小相对较大，所以计算起来非常昂贵，所以我们直接计算 Σγ 的对角线:
在这里插入图片描述
这个向量仅仅依赖于三维位置的协方差 Σ 的对角线，它可以被计算为:

如果直接计算这些对角线，IPE 特性的构造成本大致与 PE 特性一样高。
图4显示了 IPE 和玩具一维领域中传统 PE 特性之间的差异。IPE 特性的行为直观: 如果位置编码中的某个特定频率的周期大于用于构造 IPE 特性的间隔的宽度，则该频率的编码不受影响。但是如果周期小于区间(在这种情况下，该区间上的 PE 将反复振荡) ，那么该频率的编码将缩小到零。简而言之，IPE 保持频率在一个时间间隔内是恒定的，并且软“移除”频率在一个时间间隔内变化，而 PE 保持所有的频率直到一些手动调谐的超参数 L。通过这种方式缩放每个正弦和余弦，IPE 特征是有效的抗锯齿位置编码特征，平滑地编码空间体积的大小和形状。IPE 还有效地将 L 作为超参数删除: 它可以简单地设置为一个非常大的值，然后永远不进行调优(参见补充)。在这里插入图片描述
图4: NeRF (左)和我们的集成位置编码(IPE)(右)所使用的位置编码(PE)的玩具一维可视化。由于 NERF 采样点沿着每条射线并且均匀地编码所有频率，因此高频 PE 特征是锯齿的，这导致了渲染伪影。通过在每个时间间隔内整合 PE 特征，当频率周期小于被整合的时间间隔的大小时，IPE 特征的高频维度缩小到零，导致隐式编码时间间隔的大小(在更高维度，形状)的抗锯齿特征。

3.2. Architecture
除了锥跟踪和 IPE 特性之外，mip-NeRF 的行为类似于 NeRF，如2.1节所述。对于每个被渲染的像素，而不是 NERF 中的光线，一个锥体被投射。我们不是沿着光线对 tk 取样 n 个值，而是对 tk 取样 n + 1个值，如前所述计算跨越每个相邻取样 tk 值对的区间的 IPE 特征。这些 IPE 特征作为输入传递到 MLP 中，以产生密度 τk 和颜色 ck，如方程2中所示。在 mip-NeRF 中渲染遵循方程3。
回想一下，NeRF 使用具有两个不同 MLP 的分层抽样程序，一个“粗”，一个“精”(参见方程4)。这在 NERF 中是必要的，因为它的 PE 特性意味着它的 MLP 只能学习一个单一尺度的场景模型。但是我们的锥形铸造和 IPE 特性允许我们明确地将尺度编码到我们的输入特性中，从而使 MLP 能够学习场景的多尺度表示。因此 Mip-NeRF 使用一个带有 Θ 参数的 MLP，我们在分层抽样策略中反复查询它。这有很多好处: 模型大小减半，渲染更精确，采样更有效，整体算法更简单。我们的最佳化问题是:

在这里插入图片描述
因为我们有一个单一的 MLP，“粗”损失必须平衡“精”损失，这是使用超参数 λ 完成的(我们设置 λ = 0.1在所有的实验中)。正如在Mildenhall等人中一样，我们的粗样本 t^c 是用分层抽样生产的，我们的精样本 t ^f 是用逆变换采样从得到的阿尔法复合重量w中采样的。与 NeRF 不同的是，在NeRF 中，将64个粗样本和128个细样本的精细 MLP 分类联合，在 mip-NeRF 中，我们仅对粗模型的128个样本和来自精模型的128个样本进行采样(产生与 NeRF 相同数量的总 MLP 评估，以进行公平比较)。在抽样 t ^f 之前，我们稍微修改了权重 w:
在这里插入图片描述
我们用一个2点击的最大过滤器和一个2点击的模糊过滤器(一个“模糊池”)过滤 w，它在 w 上产生一个宽而平滑的上封皮。在将超参数 α 重新标准化为总和为1之前，将其添加到该信封中，这确保即使在空间的空白区域中也绘制一些样品(在所有实验中我们设置 α = 0.01)。

Mip-NeRF 是在 JaxNeRF之上实现的，JaxNeRF 是 NeRF 的一个 JAX重新实现，它比原来的 TensorFlow 实现获得更好的准确性和更快的训练速度。我们遵循 NERF 的训练程序: 100万次Adam的迭代，批量大小为4096，学习率从5X10^ -4到5X10 ^-6进行对数退火。请参阅补充资料了解更多细节以及 JaxNeRF 和 mip-NeRF 之间的一些其他差异，这些差异不会显着影响性能，并且对我们的主要贡献是附带的: 锥体追踪，IPE 和使用单个多尺度 MLP。

4. Results

我们评估了原始 NeRF 论文中提出的 Blender 数据集的 mip-NeRF，以及该数据集的简单多尺度变体，旨在更好地探测多分辨率场景的准确性，并强调 NeRF 在这些任务中的关键弱点。我们报告了 NeRF 使用的三个误差指标: PSNR、 SSIM 和 LPIPS 。为了便于比较，我们还提出了一个“平均”误差度量，总结了所有三个指标: MSE = 10^(-PSNR/10)，√1-SSIM和 LPIPS 的几何平均值。我们还报告了运行时间(墙时间的中位数和中位数平均差)以及每种 neRF 和 mip-neRF 的网络参数数量。所有的 JaxNeRF 和 mip-NeRF 实验都是在32核的 TPU v2上进行训练的。
我们构建了我们的多尺度 Blender 基准，因为 NERF 使用的原始 Blender 数据集有一个微妙但关键的弱点: 所有的相机有相同的焦距和分辨率，并放置在与物体相同的距离。因此，这个 Blender 任务比大多数真实世界的数据集要容易得多，因为在真实世界中，摄像机可能离目标更近或更远，或者可以放大或缩小。这个数据集的局限性得到了 NERF 的局限性的补充: 尽管 NERF 倾向于产生锯齿渲染，但它能够在 Blender 数据集上产生出色的结果，因为该数据集系统地避免了这种失败模式。在这里插入图片描述
图5: mip-NeRF 输出与地面真相、 NeRF 的可视化比较，以及在我们的多尺度 Blender 数据集中的两个场景的测试集图像上 NeRF 的改进版本。我们可视化裁剪区域的两个场景在4个不同的尺度，显示为一个图像金字塔与 SSIM 的每一个尺度显示在其右下方，最高的 SSIM 在每一个尺度突出显示为红色。Mip-NeRF 在视觉和数量上都明显优于 NeRF 及其改进版本。有关更多此类可视化信息，请参见附录。
Multiscale Blender Dataset
我们的多尺度 Blender 数据集是对 NERF 的 Blender 数据集的直接修改，设计用于探测混叠和尺度空间推理。这个数据集是通过取 Blender 数据集中的每个图像，将其下采样为2、4和8倍(并相应地修改相机内部特性) ，然后将原始图像和三个下采样图像组合成一个单独的数据集来构建的。由于射影几何的特性，这类似于重新渲染原始数据集，其中距离相机的比例因子增加了2、4和8。在这个数据集上训练 mipNeRF 时，我们通过原始图像中每个像素的足迹面积来缩放每个像素的损失(1/4图像中的像素的损失缩放了16，等) ，以便少数低分辨率像素具有与许多高分辨率像素相当的影响。此任务的平均误差度量使用所有四个范围内的每个误差度量的算术平均值。

这个多尺度数据集 mip-NeRF 的性能如表1所示。
在这里插入图片描述
表1: 在我们的多尺度 Blender 数据集的测试集上，mip-NeRF 及对抗 NERF 的消融术和几种 NeRF 变体的定量比较。有关详细信息，请参阅文本。

由于 neRF 是 Blender 数据集中的最新技术(如表2所示) ，
在这里插入图片描述
表2: mip-neRF 及其消融与Mildenhall等人的单一尺度 Blender 数据集上的几种基线算法和 NeRF 变体的比较。训练时间从以前的工作(如果可用)是以灰色表示，因为他们没有直接比较。

我们只针对 neRF 和几个改进版本的 NeRF 进行评估: “ Area Loss”增加了前面提到的通过 mip-neRF 使用的像素区域来缩放损失函数，“ center Pixels”增加了半像素偏移量添加到每个光线的方向，使得光线通过每个像素的中心(与Mildenhall等人的做法相反) ，“ Misc”增加了一些小的变化，略微提高了训练的稳定性(见补充)。我们还针对 mip-neRF 的几种消融方式进行了评估: “ w/o Misc”消除了这些微小的变化; “ w/o Single MLP”使用了方程4中的 neRF 的双 MLP 训练方案; “ w/o Area Loss”消除了按像素面积计算的损失缩放; “ w/o IPE”使用 PE 而不是 IPE，这导致 mip-neRF 使用 neRF 的射线投射(带有中心像素)而不是我们的锥形投射。

Mip-NERF 在这个任务中将平均误差降低了60% ，并且在所有指标和规模上都大大优于 NERF。“居中”像素大大提高了 NERF 的性能，但不足以接近 mip-NERF。移除 IPE 特性导致 mip-NERF 的性能降低到“居中”NERF 的性能，从而表明锥形铸件和 IPE 特性是驱动性能的主要因素(尽管面积损失是主要因素)。“单 MLP”mip-NeRF 消融性能良好，但参数是 mip-NeRF 的两倍，比 mip-NeRF 慢近20% (可能是由于这种消融需要对 t 值进行排序，并且由于其在“粗”和“精”尺度上改变张量大小而导致硬件通过性能差)。Mip-NeRF 也比 NeRF 快7% 。参见图9和可视化补充。
在这里插入图片描述
图9: 在多尺度 Blender 数据集的8个场景的测试集图像上，mip-NeRF 的输出渲染与地面真相、 NeRF 和我们的改进版 NeRF 相比的可视化。为了更好地可视化，我们将每个场景的一个裁剪区域可视化，并以4种不同的分辨率渲染该场景，显示为一个图像金字塔。每个图像金字塔真理的每个尺度的 SSIM 显示在它的右下角，每个算法在每个尺度上的最高 SSIM 用红色突出显示。

Blender Dataset
虽然 mipneRF 设计用于解决的采样问题在多尺度 Blender 数据集中最为突出，但 mip-neRF 在Milden-
hall等人提出的更容易的单尺度 Blender 数据集上也优于 NeRF，如表2所示。在这里插入图片描述
表2: mip-neRF 及其消融与Mildenhall等人的单一尺度 Blender 数据集上的几种基线算法和 NeRF 变体的比较。训练时间从以前的工作(如果可用)是以灰色表示，因为他们没有直接比较。

我们根据 NeRF，NSVF 使用的基线以及以前使用的相同变体和消融(包括的“面积损失”，在这个项目中它不被 mip-NeRF 使用)进行评估。虽然 mip-NeRF 算法不如多尺度 Blender 数据集显著，但与 NeRF 算法相比，mip-NeRF 算法的平均误差降低了17% ，而且速度更快。这种性能上的改进在具有挑战性的情况下最为明显，如图6所示，例如小型或薄型结构。在这里插入图片描述
图6: 即使是在Mildenhall等人的较不具有挑战性的单一尺度的 Blender 数据集上，mip-neRF 也明显优于 NeRF 和我们的改进版 NeRF，特别是在小或薄的物体上，如乐高卡车(顶部)的孔和船只(底部)的绳索。
Supersampling
正如介绍所讨论的，mip-NeRF 是一种用于抗混叠的预滤波方法。另一种方法是超采样，它可以通过在 NERF 中每个像素投射多个抖动光线来实现。由于我们的多尺度数据集包含全分辨率图像的降低采样版本，我们可以通过训练一个 neRF (“ neRF + Area，Center，Misc”)来构建一个“超采样 neRF”只使用全分辨率图像，然后只渲染全分辨率图像，然后我们手动下样本/降低采样。这个基线有一个不公平的优势: 我们手动删除多尺度数据集中的低分辨率图像，会降低 NeRF 的性能，如前所述。这种策略在大多数真实世界的数据集中是不可行的，因为通常不可能事先知道哪些图像对应哪个图像内容尺度。尽管这个基线的优势，mip-NERF 匹配它的准确性，同时快22倍(见表3)。在这里插入图片描述
表3: mip-NeRF 和我们改进的 NeRF 变体的比较，两种算法都是超采样的(“ SS”)。Mip-NERF 的精度几乎与“ SS NERF”相当，但是速度快了22倍。在 mip-NERF 中加入超采样稍微提高了它的准确性。我们报告渲染测试集的时间，标准化为秒/像素(训练时间与表1和表2相同)。

5. Conclusion

我们提出了 mip-NeRF，一个多尺度类 NeRF 模型，解决了 NeRF 固有的混叠问题。NERF 的工作方式是投射射线，编码射线上各点的位置，并在不同的尺度上训练独立的神经网络。相比之下，mip-NeRF 铸造圆锥体，编码圆锥体的位置和大小，并训练一个单一的神经网络，在多个尺度上模拟场景。通过对采样和尺度的明确推理，mip-NeRF 能够在我们自己的多尺度数据集上相对于 NeRF 减少60% 的错误率，在 NeRF 的单尺度数据集上减少17% ，同时也比 NeRF 快7% 。Mip-NERF 也能够匹配蛮力超采样 NERF 变体的精度，同时速度快22倍。我们希望这里介绍的一般技术对其他致力于改善基于光线追踪的神经绘制模型性能的研究人员有所帮助。