【点云】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

最新推荐文章于 2024-04-25 10:09:16 发布

BIT可达鸭

最新推荐文章于 2024-04-25 10:09:16 发布

阅读量785

点赞数 1

分类专栏： ▶ 深度学习-计算机视觉文章标签：目标检测 3d 计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44936889/article/details/125990952

版权

▶ 深度学习-计算机视觉专栏收录该内容

155 篇文章 1436 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

【WACV 2022】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

论文简介：
基本思路：
具体实现：
实验结果：

论文简介：

本文提出了一种新的三维目标检测架构，M3DETR，它将不同的点云表示（原始、体素、鸟瞰图）与基于多尺度特征金字塔的不同特征尺度相结合。M3DETR 是第一种使用 Transformer 同时统一多个点云表示、特征尺度以及建模点云之间的相互关系的方法。

作者进行了广泛的消融实验，强调融合不同表示和尺度的好处，并建模的关系。该方法在 KITTI 三维目标检测数据集和 Waymo 开放数据集上取得了最先进的性能。结果表明，M3DETR 显著为 Waymo 开放数据集上所有类的基线提高了 1.48% 的 mAP，并在汽车和自行车类的 KITTI 3D 检测基准上排名第一，在具有单帧点云输入的 Waymo 开放数据集上排名第一。

基本思路：

基于不同网络的三维目标检测方法有两个关键的限制：

无效的点云表示：用于处理点云的三种主要技术分别是基于体素、原始点云和鸟瞰图。每种表示都有一个独特的优势，并且已经表明，结合这些表示可以提高检测精度。然而，融合这些表示并不简单。首先，三类神经网络对应的结构是不同的。此外，在应用基于 VoxelNets 和二维卷积神经网络的技术之前，还需要将原始点云转换为体素和像素。这三种神经模型的输入之间的差异可能会导致语义差距。以往的工作倾向于使用特征连接和注意模块来融合多表示特征。然而，不同表示形式的特征之间的相关性尚未得到解决。
多尺度特征建模不足：融合多尺度特征图是 2D 检测中一种被广泛使用的技术，在三维目标检测方面，目前的方法倾向于使用多尺度特征金字塔。然而，融合这些多个特征金字塔是很重要的，因为更高的分辨率和更大的感受野是相互冲突的。现有的方法往往采用双线性下采样/上采样

了解本专栏

超级会员免费看

BIT可达鸭

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【点云】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers

本文提出了一种新的三维目标检测架构，M3DETR，它将不同的点云表示（原始、体素、鸟瞰图）与基于多尺度特征金字塔的不同特征尺度相结合。M3DETR 是第一种使用 Transformer 同时统一多个点云表示、特征尺度以及建模点云之间的相互关系的方法。...
复制链接

扫一扫