【论文笔记】Neural LiDAR Fields for Novel View Synthesis

byzy

已于 2023-12-15 17:58:00 修改

阅读量117

点赞数 1

分类专栏： NeRF相关文章标签：论文阅读深度学习

于 2023-10-21 15:22:55 首次发布

本文链接：https://blog.csdn.net/weixin_45657478/article/details/133828259

版权

NeRF相关专栏收录该内容

12 篇文章 3 订阅

订阅专栏

原文链接：https://arxiv.org/pdf/2305.01643.pdf

1. 引言

目前的新视图合成都关注合成图像，而自动驾驶通常依赖激光雷达测量。

传统的激光雷达新视图合成方法主要分两步。首先根据点云提取显式的表面表达（如三角形网孔），然后从新视点发出射线，与表面相交。这类方法会导致离散化伪影，且假设了理想的射线模型，忽略了激光雷达光束的发散性。

激光雷达的一个特点是，激光器并非直接测量距离，而是通过测量光束返回的能量，并根据波形确定距离。这使得可能导致一个发射射线产生多个返回或者不产生任何返回。

本文基于NeRF，提出激光雷达神经场（NFL），直接为新视图合成优化隐式场景表达。此外，本文考虑了激光雷达的测量过程并整合到神经场中，引入光束发散并提出截断体积网格渲染。

3. 背景

3.1 被动传感器的体积网格渲染

密度与透射率：对从原点 $o\in\mathbb{R}^3$ 以方向 $d\in\mathbb{R}^3$ 发出的射线 $r (o, d)$ ，距离 $\zeta$ 处的密度 $\sigma_\zeta$ 是标量函数，表示射线在 $r_\zeta=o+\zeta d$ 处（经过单位距离）撞击反射粒子的可能性。透射率 $T_\zeta$ 是射线从距离区间 $[0,\zeta)$ 不碰到任何东西的概率。给定射线上的距离微元 $d\zeta$ ，不碰到任何东西的概率 $T_{\zeta+d\zeta}=T_\zeta\cdot(1-\sigma_\zeta d\zeta)$ 。在区间 $[\zeta_0,\zeta)$ 上积分，可求得
$T_\zeta=T_{\zeta_0}\exp(-\int_{\zeta_0}^\zeta\sigma_tdt)$
则射线在区间 $[\zeta_0,\zeta)$ 内不受阻碍的概率
$T_{\zeta_0\rightarrow\zeta}\equiv\frac{T_\zeta}{T_{\zeta_0}}=\exp(-\int_{\zeta_0}^\zeta\sigma_tdt)$
分解公式： $T_\zeta= T_{\zeta_0}\cdot T_{\zeta_0\rightarrow\zeta}$ 。

在均匀介质上积分：假设射线 $[\zeta_j,\zeta_{j+1}]$ 段的均匀介质有恒定的辐射 $c\in\mathbb{R}^3$ 和密度 $\sigma$ ，则该段的积累辐射量为
$c(\zeta_j\rightarrow\zeta_{j+1})=c_{\zeta_j}\int_{\zeta_j}^{\zeta_{j+1}}T_{\zeta_j\rightarrow\zeta}\cdot\sigma_\zeta d\zeta=\alpha_{\zeta_j}c_{\zeta_j}$
其中 $\alpha_{\zeta_j}=1-\exp(-\sigma_{\zeta_j}(\zeta_{j+1}-\zeta_j))$ 为不透明度。

推导过程：
$c(\zeta_j\rightarrow\zeta_{j+1})=c_{\zeta_j}\int_{\zeta_j}^{\zeta_{j+1}}T_{\zeta_j\rightarrow\zeta}\cdot\sigma_\zeta d\zeta=c_{\zeta_j}\int_{\zeta_j}^{\zeta_{j+1}}\exp(-\int_{\zeta_j}^\zeta\sigma_tdt)\cdot\sigma_\zeta d\zeta$
令 $f(\zeta)=\exp(-\int_{\zeta_j}^\zeta\sigma_tdt)$ ，则
$f'(\zeta)=-\sigma_\zeta\exp(-\int_{\zeta_j}^\zeta\sigma_tdt)$
则
$c(\zeta_j\rightarrow\zeta_{j+1})=-c_{\zeta_j}\int_{\zeta_j}^{\zeta_{j+1}}f'(\zeta)d\zeta=-c_{\zeta_j}f(\zeta)|_{\zeta=\zeta_j}^{\zeta_{j+1}}=-c_{\zeta_j}[\exp(-\int_{\zeta_j}^{\zeta_{j+1}}\sigma_tdt)-1]=c_{\zeta_j}(1-\exp(-\sigma_{\zeta_j}(\zeta_{j+1}-\zeta_j))$

体积网格渲染：将射线分为 $N$ 个片段，每个片段有恒定密度和辐射值，则总的辐射度为
$c=\sum_{j=1}^N\int_{\zeta_j}^{\zeta_{j+1}}T_{\zeta}\cdot \sigma_\zeta c_{\zeta} d\zeta=\sum_{j=1}^Nw_jc_{\zeta_j}$
其中 $w_j=\alpha_{\zeta_j}\prod_{k=1}^{j-1}(1-\alpha_{\zeta_k})$ 为第 $j$ 个片段的权重。

推导过程：
$c=\sum_{j=1}^N\int_{\zeta_j}^{\zeta_{j+1}}T_{\zeta}\cdot \sigma_\zeta c_{\zeta} d\zeta=\sum_{j=1}^NT_{\zeta_j}\int_{\zeta_j}^{\zeta_{j+1}}T_{\zeta_j\rightarrow\zeta}\cdot \sigma_\zeta c_{\zeta} d\zeta=\sum_{j=1}^N(\prod_{k=1}^{j-1}T_{\zeta_k\rightarrow\zeta_{k+1}})\alpha_{\zeta_j}=\sum_{j=1}^N(\prod_{k=0}^{j-1}\exp(-\int_{\zeta_k}^{\zeta_{k+1}}\sigma_tdt))\alpha_{\zeta_j}=\sum_{j=1}^N(\alpha_{\zeta_j}\prod_{k=0}^{j-1}(1-\alpha_{\zeta_k}))$

3.2 激光雷达模型

理想的激光雷达模型发射激光束脉冲（其终点为3D表面点），并根据飞行时间计算距离。但是实际的激光雷达发射的光束存在散度且脉宽有限，且接收器根据信号处理技术检测返回。这导致离散误差或估计偏差、多个返回或没有返回。

光束发散：激光束会随着距离增大而发散，这会导致照明区域增大、单位面积的辐射减小。光束足迹的大小取决于发散角 $2\gamma_0$ 和距离 $\zeta$ 。设 $r^\gamma$ 为光束截面内角度为 $\gamma$ 的理想射线， $\gamma\leq\gamma_0$ ，则其单位面积的辐射 $E(\zeta,\gamma)$ 可由射线坐标系内的高斯函数估计：
$E(\zeta,\gamma)=\frac{2I_0}{\pi(\gamma_0\zeta)^2}g(\gamma),g(\gamma)=\exp(-2\frac{\gamma^2}{\gamma_0^2})$
其中 $I_0$ 为脉冲峰值功率。

脉冲波形：根据飞行时间和光速 $c$ ，可计算距离。由于脉冲有有限时长 $\tau_H$ ，返回的时间是通过分析接收强度得到的。发射脉冲的功率随时间的关系如下：
$P_e(t)\propto(\frac{t}{\tau})^2\exp(-\frac{t}{\tau}),\tau=\frac{\tau_H}{1.75}$
接收辐射功率 $P(\zeta)$ 为脉冲功率与系统脉冲相应 $H(\zeta)$ 进行卷积的结果：
$P(\zeta)=\int_0^{2\zeta/c}P_e(t)H(\zeta-\frac{ct}{2})dt$
其中脉冲相应 $H(\zeta)$ 为目标相应于接收器相应的组合： $H(\zeta)=H_T(\zeta)H_C(\zeta)$ 。对于距离为 $\zeta_0$ 处的朗博表面，目标相应与入射角 $\theta$ 和反射率 $\rho$ 相关：
$H_T(\zeta)=\frac{\rho}{\pi}\cos(\theta)\delta(\zeta-\zeta_0)$ 其中 $\delta(\cdot)$ 为狄拉克delta函数。接收器响应 $H_C(\zeta)$ 是通过对接收器有效面积实心角 $A_e$ 的积分来计算的：
$H_C(\zeta)=T_\zeta^2\frac{A_e}{\zeta^2}$
其中 $T_\zeta\in[0,1]$ 为单向透射率。

光束离散化：实际中，会将高斯发散的光束离散化为 $M = 37$ 条角度为 $\gamma_i$ 射线。总的辐射功率 $P(\zeta)$ 为这些光束的加权和：
$P(\zeta)=\sum_{i=1}^{M}g(\gamma_i)P_i(\zeta)$
考虑光束发散能产生两种重要现象：距离偏差和多返回，如下图的最上一行所示。当光束照射到不同距离的表面时，波形的峰值可能会移位，导致距离偏差。
图1 激光雷达的返回特性
距离估计：估计表面距离的常用方法是定位接收波形的峰值。此时信号会被离散化为直方图，超过某阈值的局部极大值会被视为检测。相关的距离值会进行修正，以消除来自波形的已知偏差（以及可能的辐射功率引起的偏差）。通过考虑区间化和阈值化过程，可以提现激光雷达距离分辨率中的离散化误差和低功率返回射线的丢弃。

4. 激光雷达新视图合成

问题设置：考虑来自运动传感器的激光雷达扫描 $\mathcal{X}=\{X_v\}_{v=1}^{n_v}$ ，每个扫描 $X_v$ 与传感器姿态 $T_v$ 相关，包含 $n_r$ 条射线。每条射线 $r (o, d)$ 记录了观测 $(\zeta_1,e_1,p_d,p_s,\zeta_2,e_2)$ ，包括来自距离 $\zeta_1$ 的、强度为 $e_1$ 的返回，射线丢弃标识 $p_d\in\{0,1\}$ ，双返回标识 $p_s\in\{0,1\}$ ；来自距离 $\zeta_2$ 的、强度为 $e_2$ 的返回。本文的目标是重建一个关于反射率 $\rho$ 和密度 $\sigma$ 的连续体积表达，从而渲染给定传感器姿态 $T_{tgt}$ 下的虚拟激光雷达扫描 $X_{tgt}$ 。

4.1 神经场景表达

本文将场景编码为神经场 $F:(x,d)\rightarrow(\sigma,\rho,p_d)$ ，输入位置 $x$ 与方向 $d$ ，输出密度、反射率和射线丢弃概率。首先，使用哈希编码将 $x$ 编码为位置特征 $f_{pos}\in\mathbb{R}^{32}$ ，并将视线方向投影为球面谐波基底的前16个系数 $f_{dir}\in\mathbb{R}^{16}$ ，然后使用MLP参数化神经场： $[\sigma,f_{geo}]=f_\sigma(f_{pos})$ 提取密度与几何特征 $f_{geo}\in\mathbb{R}^{15}$ ； $\rho=f_\rho(f_{geo},f_{dir})$ 回归反射率； $p_d=f_{drop}(f_{geo},f_{dir})$ 对是否丢弃射线进行分类； $p_s=f_{sr}(f_{beam})$ 分类第二返回的存在性（ $f_{beam}$ 见第4.3节）。

4.2 激光雷达射线的体积渲染

与被动传感器不同，激光雷达主动照明场景并测量返回的辐射。这一双向传播的特点使得激光雷达的体积渲染与图像不同。
辐射功率积分：沿射线的辐射功率为delta函数，仅在反射表面不为0。本文将 $H_T(\zeta)$ 与 $H_C(\zeta)$ 的公式组合，得到概率辐射功率：
$P_\zeta=C\frac{T_\zeta^2\cdot \sigma_\zeta \rho_\zeta}{\zeta^2}\cos(\theta)$
其中 $C$ 为系统常数， $\rho_\zeta$ 为可微反射率， $\theta$ 为入射角。在有恒定密度与反射率的均匀介质中，积分 $P(\zeta_j\rightarrow\zeta_{j+1})$ 为：
$P(\zeta_j\rightarrow\zeta_{j+1})=\int_{\zeta_j}^{\zeta_{j+1}}C\frac{T_{\zeta_j\rightarrow\zeta}^2\sigma_\zeta\rho_\zeta}{\zeta^2}\cos(\theta_j)d\zeta\approx\alpha_{\zeta_j}\rho'_{\zeta_j}$
其中以 $\frac{\zeta_j+\zeta_{j+1}}{2}$ 来近似 $\zeta\in[\zeta_j,\zeta_{j+1}]$ ，且
$\alpha_{\zeta_j}=\frac{1}{2}(1-\exp(-\sigma_{\zeta_j}\delta_{\zeta_j})),\rho'_{\zeta_j}=C\rho_{\zeta_j}\frac{4\cos(\theta_j)}{(\zeta_j+\zeta_{j+1})^2}$
体积渲染：主动传感器的观测功率可通过将 $P(\zeta_j\rightarrow\zeta_{j+1})$ 的表达插入图像体积渲染的公式中计算：
$P=\sum_{j=1}^{N}\int_{\zeta_j}^{\zeta_{j+1}}C\frac{T_{\zeta}^2\sigma_\zeta\rho_\zeta}{\zeta^2}\cos(\theta_j)d\zeta=\sum_{j=1}^Nw_j\rho'_{\zeta_j}$
其中
$w_j=2\alpha_{\zeta_j}\prod_{k=1}^{j-1}(1-2\alpha_{\zeta_k})$

4.3 从多条射线组合光束

第一距离估计：本文使用两阶段方法从神经场提取距离值。为估计理想射线 $r$ 的距离，本文均匀采样 $N^c$ 个点，查询其密度值，并计算权重 ${w_j^c\}_{j=1}^{N^c}$ 。粗糙的峰值估计 $\zeta_p$ 通过寻找最大权重的采样点得到： $p=\argmax_j\{w_j^c\}_{j=1}^{N^c}$ 。然后在局部区间 $\zeta_j\in[\zeta_p-\epsilon,\zeta_p+\epsilon]$ 均匀采样 $N^f$ 个点，并计算权重 $w_j^f$ ，从而计算 $\zeta_f=\sum_{j=1}^{N^f}w_j^f\zeta_j$ 。

第二距离估计：本文使用截断体积渲染估计除第一返回之外的辐射功率。

具体来说，首先通过对特征 $f_{beam}=(\bar{f}_{geo},f_{dir},f_{range})$ 进行是否二次返回的分类，其中 $\bar{f}_{geo}$ 为体积渲染的几何特征， $f_{range}$ 描述了第一返回距离估计的标准差和最大差异。直观来看， $\bar{f}_{geo}$ 描述局部几何， $f_{dir}$ 编码了光束与几何的关系， $f_{range}$ 体现了光束与场景的先验交互。

对有二次返回的光束，首先为第一返回的距离 $\zeta_1$ 添加一个 $\xi$ （描述第二返回与第一返回的距离）。然后将透射率 $T_{\zeta_1+\xi}$ 置为1（将 $\zeta_1+\xi$ 之前的密度置为0），并重新计算权重。重复上述距离估计得到 $\zeta_2$ 。注意对于有两次返回的光束，其第一返回 $\zeta_1$ 表示光束范围内所有射线测量的最小距离。而对单次返回的光束，其距离为光束中心射线的测量距离。

反射率估计：根据神经网络，可以得到被检测表面点的反射率 $\rho=\sum_{j=1}^{N^f}w_j^f\rho_j$ 。

射线丢弃概率：实际中，部分光束没有距离测量。这可能是由于观测的返回信号幅度较小或没有清晰的峰值。这很难进行完全的物理建模，因为这往往取决于（未公开的）检测细节。本文使用神经网络预测变量 $p_d(\zeta)\in\{0,1\}$ 来表示不反射辐射功率的局部概率，以增强神经场景表达。体素渲染会整合该值，得到射线被丢弃的概率： $p_d(r)=\sum_{j=1}^{N^c}w_j^cp_d(\zeta_j)$ 。

4.4 训练神经激光雷达场

给定一组激光雷达扫描，通过最小化下面的损失函数优化模型：
$\mathcal{L}=\mathcal{L}_{range}+\lambda_e\mathcal{L}_e+\lambda_d\mathcal{L}_d+\lambda_s\mathcal{L}_s$

距离重建：为粗糙距离 $\zeta_p$ 和细化距离 $\zeta_f$ 添加两个损失。粗糙距离损失会在真实距离 $\hat{\zeta}$ 处引入高斯分布：
$\mathcal{L}_{range}^c=\frac{1}{|\mathcal{R}|}\sum_{r\in\mathcal{R}}(1-\sum_{w_j\in\mathcal{X}_c^n}w_j\hat{w}_j+\sum_{w_k\in\mathcal{X}_c^e}w_k^2)$
其中 $\mathcal{R}$ 为激光雷达射线的集合， $\mathcal{X}_c^n$ 和 $\mathcal{X}_c^e$ 表示在区间 $[\hat{\zeta}-\epsilon,\hat{\zeta}+\epsilon]$ 内部和外部的采样点。真实权重 $\hat{w}_j$ 是通过积分高斯分布计算的。细化距离损失为：
$\mathcal{L}_{range}^f=\frac{1}{|\mathcal{R}|}\sum_{r\in\mathcal{R}}|\hat{\zeta}-\zeta_f|$

反射率重建：通过与真实强度 $\hat{e}$ 之间的L2损失来优化： $\mathcal{L}_e=\frac{1}{|\mathcal{R}|}\sum_{r\in\mathcal{R}}(\hat{e}-e)^2$ 。

射线丢弃和双返回标识以分类任务训练，通过最小化二元交叉熵损失与Lovasz损失的组合来优化：
$\mathcal{L}_*=\frac{1}{|\mathcal{R}|}\sum_{r\in\mathcal{R}}(\mathcal{L}_{bce}(p_*,\hat{p}_*)+\mathcal{L}_{ls}(p_*,\hat{p}_*))$

5. 实验

5.1 数据集与评估设置

Waymo Open数据集：使用其中的部分静态场景，每个场景分割出长5s的片段，每隔5帧选出来组成测试集。

此外，还基于闭环仿真提出新的评估协议，即使用所有帧训练，并合成另一轨迹（将传感器平移固定的一段距离）下的新视图。然后使用合成视图作为训练，合成原始轨迹下的视图以衡量性能。

评估指标：本文报告4类评估指标：平均绝对误差（MAE），中值绝对误差（MedAE），双向Chamfer距离（CD）和recall@50（距离估计误差小于0.5m的射线百分比）。还测量了双返回估计的分割召回率（Seg. recall）和分割精度（Seg. precision）。强度由平均绝对误差（MAE）评估。对于射线丢弃估计，使用召回率、精度和IoU。对于点云配准，使用旋转误差（RE）和平移误差（TE）。

5.2 激光雷达新视图合成的评估

射线测量：NFL有较低的距离误差，且强度和射线丢弃概率估计均有较好的性能。使用分散光束表达能提高双返回射线的两个距离估计，但会略微降低整体的第一返回距离估计性能。这是由于双返回标识的估计不够精确，且可通过使用真实双返回标识来进行实验证明。

第一距离：本文NFL的体积渲染能有效估计密度场，导致在困难场景有更好的结果。

对主动传感器体积渲染的消融研究：使用本文的体积渲染替换基准方案的被动传感器体积渲染，在不调整超参数的情况下，距离估计精度均有上升。

5.3 新视图的下游评估

点云配准：为评估合成扫描保留局部几何特征的程度，本文使用在Waymo上预训练的点云配准模型应用于真实激光雷达扫描和合成扫描。实验表明，本文的NFL能在复杂几何和高噪声水平的数据集上超过基准方案。

语义分割：为探索真实扫描与合成扫描的域间隙，本文使用预训练的语义分割模型比较结果。NFL对汽车的分割达到了最高的召回率。

6. 局限性和未来工作

NFL基于NeRF，因此需要进行逐场景优化。

补充材料

B. 方法和损失函数

第一距离估计：若第一阶段的最大权重 $w_p^c$ 低于预定义阈值 $\eta=0.1$ ，则假设网络对重建和距离估计不确定，因此仅进行粗糙阶段的体积渲染，将距离估计为 $\zeta=\sum_{j=1}^{N^c}w^c_j\zeta_j$ 。

距离重建损失：为真实距离添加高斯噪声的标准差 $\delta$ 在训练中是经过退火的，退火过程如下：
$\delta_k=\delta_{\max}(\frac{\delta_{\min}}{\delta_{\max}})^{k/k_{\max}}$
其中 $k$ 为迭代次数， $k_{\max}$ 为最大迭代数， $\delta_{\max}$ 与 $\delta_{\min}$ 为经验决定的标准差上下界。真实权重 $\hat{w}_j$ 按下式计算：
$\hat{w}_j=\int_{\zeta_j}^{\zeta_{j+1}}\frac{1}{\delta\sqrt{2\pi}}\exp(-\frac{(x-\hat{\zeta})^2}{2\delta^2})dx$