【论文笔记】NeRI: Implicit Neural Representation of LiDAR Point Cloud Using Range Image Sequence

最新推荐文章于 2024-07-24 14:26:38 发布

byzy

最新推荐文章于 2024-07-24 14:26:38 发布

阅读量940

点赞数 21

分类专栏： NeRF相关文章标签：论文阅读自动驾驶深度学习

本文链接：https://blog.csdn.net/weixin_45657478/article/details/137344946

版权

NeRF相关专栏收录该内容

12 篇文章 3 订阅

订阅专栏

原文链接：https://ieeexplore.ieee.org/abstract/document/10446596/

1. 引言

激光雷达数据通常包含大量3D稀疏点，导致本地存储和网络投递具有挑战性。因此，有效压缩激光雷达点云意义重大。

过去的方法在相对密集的3D室内点云中进行了有效压缩，但在非均匀分布的激光雷达点云上压缩有限。有方法将3D激光雷达点云投影到距离视图上得到2D表达，然后使用2D压缩技术压缩。BEV图像的压缩也可行，但垂直方向上的遮挡会导致几何信息损失。总的来说，目前的方法都使用显式表达进行压缩。

本文的方法称为NeRI，使用隐式神经表达（INR），用神经网络建模激光雷达点云的距离图像序列。解码时，给定任意时间帧索引和激光雷达的空间姿态，NeRI可以输出重建的距离图像，并进一步还原为点云。

2. 方法

2.1 时空位置编码

记视频序列为 $V=\{v_t\}_{t=1}^T$ ，其中 $T$ 为总帧数。过去的视频压缩方法证明了可将时间 $t$ 映射到高维嵌入空间，作为神经网络 $f_\theta$ 的输入，从而得到视频帧： $v_t=f_\theta(t)$ 。

与视频不同，激光雷达传感器的轨迹通常是已知的，可使用各时刻激光雷达姿态作为先验促进处理。因此，NeRI的输入分为3部分：时间 $t$ ，空间平移 $T_t=(x,y,z)$ 和空间旋转 $R_t=(\alpha,\beta,\nu)$ 。注意空间平移与旋转是相对于全局坐标系的，表示了激光雷达的位置和朝向。记距离图像序列表达为 ${I_t\}_{t=1}^T$ ，有 $I_t=f_\theta(t,T_t,R_t)$ ，其中 $f_\theta$ 为NeRI网络。

由网络表达式可见，本文方法需要逐场景训练。

此后，参考NeRF，对三个输入进行位置编码，并将位置编码结果堆叠输入网络，生成距离图像序列。

2.2 距离图像投影

距离图像的行为激光雷达激光束的俯仰角，而列为水平角。距离测量被存储于距离图像的单元格内。如下图所示。
在这里插入图片描述
给定帧 $p$ 中某点的3D坐标 $x_p,y_p,z_p)$ ，可按下式得到其距离 $r_p$ ，水平角 $\theta_p$ 和俯仰角 $\phi_p$ ：
$\begin{cases}r_p=\sqrt{x_p^2+y_p^2+z_p^2},\\\theta_p=\arctan(x_p/y_p),\\\phi_p=\arcsin(z_p/r_p). \end{cases}$

使用激光雷达传感器的参数，包括水平视野 $FOV_h$ ，垂直最大角 $\phi_{\max}$ ，垂直最小角 $\phi_{\min}$ ，垂直光束数 $N$ 和水平角分辨率 $\rho$ ，可得到分辨率为 $(w, h)$ 的图像，其中 $w=[FOV_h/\rho],h=N$ ， $[\cdot]$ 为取整操作。

点 $(r_p,\theta_p,\phi_p)$ 在距离图像上的像素索引为
$\begin{cases}u_p=[\frac{\theta_pw}{FOV_h}],\\v_p=[(\phi_p-\phi_{\min})/\frac{\phi_{\max}-\phi_{\min}}{h-1}].\end{cases}$

2.3 网络优化和量化

本文以自监督方式训练模型，使得生成的距离图像尽可能接近原始距离图像：
$L_1=\frac1T\sum_i|y_t-f_\theta(t,T_t,R_t)|$

其中 $T$ 为总帧数， $y_t$ 为投影的距离图像。

然后，浮点型网络参数被量化为低比特精度，以减小比特率消耗。直接均匀量化（UQ）会导致极大的量化误差：
$UQ(w;b,w_l,w_u,z)=s\times w_q+z,\\w_q=[\frac{\min(\max(w,w_u),w_l)-z}{s}],s=\frac{w_u-w_l}{2^b-1}$

其中 $w_l,w_u]$ 为量化范围， $s$ 为缩放因数， $w_q$ 为量化整数， $z$ 为偏移量（默认为0）。

考虑到参数的钟形分布，本文使用分段线性量化（PWLQ），将量化范围 $[- m, m]$ 分割为两个对称区域： $R_1=[-p,p],R_2=[-m,-p)\cup(p,m]$ ，然后执行 $b$ 位量化：
$PWLQ(w;b,m,p)=\begin{cases}\text{sgn}(w)\cdot UQ(|w|;b-1,0,p,0),&w\in R_1\\\text{sgn}(w)\cdot UQ(|w|;b-1,p,m,p),&w\in R_2\end{cases}$

其中 $w$ 为模型参数， $\text{sgn}(\cdot)$ 为符号函数。最优断点 $p$ 通过最小化期望平方量化误差估计得到。最后，使用赫夫曼编码对量化参数进行无损压缩。

3. 实验结果与分析

在这里插入图片描述
如上图所示，本文使用MLP与上采样（卷积+像素打乱+SiLU激活函数）的混合结构网络。

3.2 总体性能

与现有方法相比，NeRI能达到更高的性能，且解码速度更快。虽然编码（网络拟合）速度比显式表达方法更慢，但比其余INR方法更快。

3.3 消融研究

位置编码：保证嵌入总长一致的情况下，改变输入各部分的嵌入长度，可知若不考虑时间编码或空间编码，性能会有所下降。

量化：使用更大的参数大小有更高的重建精度。在相同的比特深度下，UQ量化的比特率比PWLQ的比特率更高，说明PWLQ的压缩效率高。随比特深度下降，UQ量化的性能急剧下降，而PWLQ量化的性能下降更为平缓。此外，UQ量化的性能波动明显，难以确定最优配置，而PWLQ量化更加鲁棒。

byzy

关注

21
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】NeRI: Implicit Neural Representation of LiDAR Point Cloud Using Range Image Sequence

【论文笔记】NeRI: Implicit Neural Representation of LiDAR Point Cloud Using Range Image Sequence
复制链接

扫一扫