【论文笔记】Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection

最新推荐文章于 2024-07-17 13:07:59 发布

byzy

最新推荐文章于 2024-07-17 13:07:59 发布

阅读量708

点赞数 2

分类专栏： # 激光雷达与图像融合多模态融合3D感知（目标检测为主）文章标签：论文阅读目标检测深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/128830594

版权

多模态融合3D感知（目标检测为主）同时被 2 个专栏收录

35 篇文章 37 订阅

订阅专栏

激光雷达与图像融合

19 篇文章 5 订阅

订阅专栏

原文链接：https://arxiv.org/pdf/2210.09615.pdf

I 引言

目前的融合主要有决策级融合和特征级融合。前者的性能往往受限，后者更加流行。特征级融合中，RoI融合与点级/体素级融合均会因为3D到2D的投影而损失信息，且融合粒度较粗，只能建立多模态特征之间的大致关系。
为解决这一问题，本文提出同态特征融合和交互策略（HMFI）。首先图像体素提升模块（IVLM）使用点云作为深度提示，将图像像素提升为体素。然后基于自注意力的查询融合机制（QFM）自适应地组合图像与点云特征：每个点云体素网格会查询所有图像体素特征，并与原始点云体素特征融合，得到联合特征。体素特征交互模块（VFIM）则从物体级别出发，在3D RoI增强点云与图像同态表达的一致性；具体来说，进行体素RoI池化后，可以得到RoI特征对的集合，使用余弦相似度损失强制两模态的RoI特征一致。

3 方法

3.1 框架概述

模型如下图所示。首先使用点编码网络提取点云特征，池化得到体素特征 $P\in \mathbb{R}^{X_P\times Y_P\times Z_P\times C_F}$ ；图像 $\tilde{I}\in \mathbb{R}^{W_{\tilde{I}}\times H_{\tilde{I}}\times 3}$ 输入ResNet-50主干提取图像特征 $F\in \mathbb{R}^{W_F\times H_F\times C_F}$ 。
在这里插入图片描述
图像体素提升模块（IVLM）将图像特征 $F$ 提升到3D同态图像体素空间，得到 $I\in \mathbb{R}^{X_I\times Y_I\times Z_I\times C_F}$ 。查询融合机制（QFM）将同态点云体素 $P$ 与图像体素 $I$ 进行融合，得到融合表达 $P^\ast \in \mathbb{R}^{X_P\times Y_P\times Z_P\times C_F}$ 。最后，使用检测模块在 $P^\ast$ 生成边界框并预测物体类别。同时，体素特征交互模块（VFIM）基于检测结果进行物体级别的特征交互，以提高跨模态的语义一致性。

3.2 图像体素提升模块

下图为本文的提升方法。首先将像素提升为棱台特征 $G$ ，然后将图像像素特征 $F_{m,n}\in\mathbb{R}^{C_F}$ 根据其深度区间值 $D_{m,n}$ 沿像素射线投影到3D空间。
在这里插入图片描述
深度区间是将深度图 $D\in\mathbb{R}^{W_F\times H_F\times R}$ （由点云投影到图像上得到）进行线性增长深度离散化（LID）得到的。使用图像特征 $F$ 与深度分布 $D$ 的外积得到棱台特征 $G\in\mathbb{R}^{W_F\times H_F\times R\times C_F}$ ：
$G_{m,n}=F_{m,n}\otimes D_{m,n}$ 最后使用三线性插值将棱台特征 $G$ 转换到3D空间，得到图像体素特征 $I$ 。
具体来说，为得到图像体素特征 $I_i\in \mathbb{R}^{C_F}$ ，需要基于校准矩阵 $CM$ ，在 $G$ 内采样相应的特征。对应位置为 $G_i^p=CM\cdot I_i^p$ （ $G_i^p,I_i^p\in\mathbb{R}^3$ 表示第 $i$ 个网格对应的3D位置），最后使用三线性插值采样位置 $G_i^p$ 周围的棱台特征得到 $I_i$ 。

3.3 查询融合机制

查询融合机制（QFM）使每个点云体素能感知所有图像体素，选择性地融合图像体素特征。使用点云体素特征 $F_P$ 作为查询，图像体素特征 $F_I$ 作为键和值，通过注意力机制得到融合体素特征 $P^\ast$ 。
具体来说， $F_P\in\mathbb{R}^{M\times C_F}$ 为所有非空点云体素特征；由于图像体素特征更加密集，为减小计算复杂度，使用3D最大池化以比例因数 $\lambda$ 下采样，得到信息最丰富的特征 $I^\ast\in\mathbb{R}^{\frac{X_I}{\lambda}\times\frac{Y_I}{\lambda}\times\frac{Z_I}{\lambda}\times C_F}$ ，然后拉平为 $F_I\in\mathbb{R}^{L\times C_F}$ ，其中 $L=\frac{X_I}{\lambda}\times\frac{Y_I}{\lambda}\times\frac{Z_I}{\lambda}$ 。
然后通过多头注意力：
$Q_i=F_P\cdot W_i^Q\in\mathbb{R}^{M\times d_k},K_i=F_I\cdot W_i^K\in\mathbb{R}^{L\times d_k},V_i=F_I\cdot W_i^V\in\mathbb{R}^{L\times d_v}$ $A_M=\textup{Concat}(\textup{head}_1,\textup{head}_2,\cdots,\textup{head}_r)W^O$ $\textup{head}_i=\textup{softmax}\left(\frac{Q_iK^T_i}{\sqrt{d_k}}\right)V_i$ 最后，将非空点云体素 $F_P$ 与 $A_M$ 拼接得到 $F_P^\ast\in\mathbb{R}^{M\times2C_F}$ ，并还原到3D空间中，得到 $P^\ast\in\mathbb{R}^{X_P\times Y_P\times Z_P\times 2C_F}$ 作为3D目标检测器的输入。

3.4 体素特征交互模块

考虑到不同模态间物体级别的表达应该相似，可以使用体素特征交互模块（VFIM）进行 $P$ 和 $I$ 之间的特征交互。如下图所示，从3D检测头采样 $N$ 个3D提案 $B=\{B_1,B_2,\cdots,B_N\}$ ，并在 $P$ 和 $I$ 中进行体素RoI池化，得到相应的RoI特征集合 $P_B=\{P_{B_1},P_{B_2},\cdots,P_{B_N}\}$ 与 $P_I=\{P_{I_1},P_{I_2},\cdots,P_{I_N}\}$ 。
在这里插入图片描述
为增大RoI特征对 $P_{B_i},P_{I_i})$ 之间的相似度，使用编码器 $\Omega$ 和MLP预测器 $\Psi$ 将RoI特征编码到度量空间中： $e_P=\Omega(P_{B_i}),p_P=\Psi(e_P);e_I=\Omega(I_{B_i}),p_I=\Psi(e_I)$ ，然后使用余弦相似度使特征距离最小化：
$\textup{CosSim}(p,e)=-\frac{p}{\|p\|_2}\ast \frac{e}{\|e\|_2}$ 使用对称相似性约束损失： $L_\textup{vfim}=\frac{1}{2}\textup{CosSim}(p_P,\textup{StopGrad}(e_I))+\frac{1}{2}\textup{CosSim}(p_I,\textup{StopGrad}(e_P))$

3.5 损失函数

总的损失函数为
$L_\textup{total}=L_\textup{rpn}+L_\textup{rcnn}+\gamma L_\textup{vfim}$ 其中 $L_\textup{rpn}$ 与 $L_\textup{rcnn}$ 分别为区域提案网络和提案细化网络的训练目标，且
$L_\textup{rpn}=w_1L_\textup{cls}+w_2 L_\textup{reg}$ 分类损失使用focal损失，以平衡正负样本，边界框回归损失使用SmoothL1损失。提案细化网络的损失 $L_\textup{rcnn}$ 由IoU指导的置信度预测损失与边界框回归损失之和，即
$L_\textup{rcnn}=L_\textup{iou}+L_\textup{refine}$