第一篇论文【多尺度Transformer激光雷达点云3D物体检测】【练手向】

Anoxia503

已于 2022-06-16 16:18:29 修改

阅读量1k

点赞数

分类专栏：目标跟踪文章标签： transformer 3d 深度学习

于 2022-06-14 20:58:11 首次发布

本文链接：https://blog.csdn.net/weixin_67623483/article/details/125254495

版权

目标跟踪专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

论文地址
论文摘要
MSPT-RCNN

论文地址

多尺度Transformer激光雷达点云3D物体检测

论文摘要

激光雷达点云3D物体检测，对于小物体如行人、自行车的检测精度较低，容易漏检误检，提出一种多尺度 Transformer激光雷达点云3D物体检测方法MSPT-RCNN（multi-scale point transformer-RCNN），提高点云3D物体检测精度。该方法包含两个阶段，即第一阶段（RPN）和第二阶段（RCNN）。RPN阶段通过多尺度Transformer网络提取点云特征，该网络包含多尺度邻域嵌入模块和跳跃连接偏移注意力模块，获取多尺度邻域几何信息和不同层次全局语义信息，生成高质量初始3D包围盒；在RCNN阶段，引入包围盒内的点云多尺度邻域几何信息，优化了包围盒位置、尺寸、朝向和置信度等信息。实验结果表明，该方法（MSPT-RCNN）具有较高检测精度，特别是对于远处和较小物体，提升更高。MSPT-RCNN通过有效学习点云数据中的多尺度几何信息，提取不同层次有效的语义信息，能够有效提升3D物体检测精度。

论文提出了一种新的基于Transformer的3d目标检测模型MSPT-RCNN，该模型包括2部分，分别为

RPN部分；
RCNN部分；

RPN部分主要是主要用来生成初始bbox，RCNN部分对生成的bbox进行优化。下面详细看下这两个模块都做了什么工作。

MSPT-RCNN

网络整体结构，左侧为RPN，右侧为RCNN结构。
网络整体架构

RPN

多尺度领域嵌入模块

多尺度领域嵌入模块RPN

该模块主要包括两部分内容，两个LBR(Linear, BatchNorm, ReLU)和两个SG(Sampling, Grouping)。LBR部分比较清晰，每个LBR包括线性层、BatchNorm和ReLU三部分，但是这里的SG稍微有点不太好理解。下面介绍下SG部分。

关于SG部分，文中有给出以下几个公式：
$\begin{cases} \Delta{F(p)} = concat_{q{\in}KNN(p,P)}(F(q)-F(p)). & (7)\\ \tilde{F}(P) = concat(\Delta{F(p)},RP(F(p),k)).&(8)\\ F_s(p)=MP(LBR(LBR(\tilde{F}(p)))).&(9)\\ F_{MS}(p)=\sum_{i=20,10,5}F_{S_i}(p).&(10) \end{cases}$
其中，公式（7）的concat下标结果为KNN搜索箭头右边的矩阵块，右侧将KNN结果和最远点采样结果相减，得到 $\Delta{F}(p)$ ，就是矩阵相减右边的矩阵快；公式（8）将矩阵采样右边的矩阵块和最远点采样结果和 $\Delta{F}(p)$ 相加，这里的K是用来保证相加的二者形状一致，结果记为 $\tilde{F}(P)$ ；公式（9）对 $\tilde{F}(P)$ 做两个LBR和一个MaxPooling，得到最终SG层的输出记为 $F_s(p)$ 。

第二个输出128维度的SG层的输出会通过三个k分别为20、10、5的KNN，输出进行concat得到邻域嵌入模块的最终输出。

这里公式写的是求和，但是图里面是concat，公式可能写错了。

跳跃连接偏移注意力模块

注意力模块

偏移注意力模块

这部分内容在文中有如下几个公式：

$\begin{cases} (Q,K,V)=F_{MS}(p)\cdot(W_q,W_k,W_v).&(11)\\ Q,K\in{R^{N\times{D_a}}},V\in{R^{N\times{D_e}}}.&(12)\\ W_q,W_k\in{R^{D_e\times{D_a}}},W_v\in{R^{D_e\times{D_e}}}.&(13) \end{cases}$

$F_{MS}$ 是多尺度邻域嵌入模块的输出，作为输入进入到偏移注意力模块，文中 $D_a=\frac{D_e}{4}$ 。后面的SL表示归一化，文中说第一个维度用softmax第二个维度用L1正则化，这个第一第二个维度没懂是什么。然后有公式：

$F_{OA}=LBR(F_{MS}(p)-F_{sa})+F_{MS}(p). (18)$

公式（18）比较清晰的刻画了模型对注意力特征的处理。

跳跃连接偏移注意力模块

跳跃连接偏移注意力模块包含4个偏移注意力模块，连接如下：

这里的跳跃偏移注意力模块有4个偏移注意力模块，关于这四个偏移注意力模块之间是如何连接的，由公式如下：

$\begin{cases} F_1=AT^1(F_{MS}(p)).&(20)\\ F_{ij}=AT^j(F_i).&(21)\\ F_C=F_1+\sum_{i,j=2,3,4}{F_{ij}}.&(22)\\ F_G=F_C\cdot{W_0}.&(23) \end{cases}$

$F_{MS}(p)$ 为输入特征， $AT^j$ 为第 $j$ 个偏移注意层，每层的输入处处具有相同的维度， $F_1$ 表示第1层的输出， $F_{i,j}$ 表示 $F_i$ 经过 $AT^j$ 的输出， $W_0$ 表示线性层的权重。

后面接着有两个池化层，分别为最大池化和平均池化。

第一阶段，即初始bbox的生成到此结束，后面的RCNN会对初始bbox进行优化。

RCNN

点云区域池化与坐标转换

这部分包括两块，分别是点云区域池化和坐标转换。

为了避免信息遗漏和充分利用目标bbox的上下文信息，文中将在RPN阶段生成的bbox进行扩展放大，每个box从原来的 $box_i=(x_i,y_i,z_i,h_i,w_i,l_i,\theta_i)$ 扩大为 $box_i^e=(x_i,y_i,z_i,h_i+\eta,w_i+\eta,l_i+\eta,\theta_i)$ ，也就是将每个bbox的长宽高增加 $\eta$ ，文中设置 $\eta=1.0m$ 。这部分应该是点云区域池化。

坐标转换按照文中介绍，是将点云中每个点的坐标从世界坐标系转换为局部坐标系。主要是针对每个bbox，以每个bbox的中心点为坐标原点，X轴和Z轴与地面平行，Y轴与地面垂直，通过转换，将每个bbox中的点转换到这个局部坐标系中。然后用MLP去学习这些点的特征。

语义特征

对于每个新的包围盒，将内部点的坐标信息 $F_{(x,y,z)}$ 、逐点特征 $F_P$ 、多尺度领域几何特征 $F_{MS}(P)$ 、激光反射强度信息 $F_{r(p)}$ 和激光雷达距离深度信息 $F_{d(p)}$ 做concat，进行MAX_pooling得到局部全局语义特征 $F_C$ ，将 $F_C$ 通过几个全连接层网络整形到和MLP的输出 $F_{\tilde{P}}$ 相同的维度，得到语义特征 $F_{C_{out}}$ 。