【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

最新推荐文章于 2024-09-14 20:22:29 发布

骆驼穿针眼

最新推荐文章于 2024-09-14 20:22:29 发布

阅读量910

点赞数 21

分类专栏：论文 bev 文章标签：论文阅读 3d 目标检测

本文链接：https://blog.csdn.net/weixin_55982578/article/details/141158449

版权

13 篇文章 2 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

A: 这篇论文提出了一个名为Far3D的新型3D对象检测框架，旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展，但它们主要集中在近程感知范围，而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战：

计算成本高：随着检测范围的扩大，需要处理的数据量和计算量显著增加。

不稳定的收敛性：在长距离检测任务中，模型训练可能难以收敛或收敛到不理想的解。

召回率低：现有方法在3D空间中的查询稀疏，导致与真实对象的匹配数量有限，从而影响检测性能。

在这里插入图片描述

2D 是 YOLOX
3D 是 streamPETR

为了克服这些限制，Far3D框架利用高质量的2D对象先验信息生成3D自适应查询，以补充3D全局查询。此外，论文还引入了透视感知聚合模块和范围调制的3D去噪技术来提高特征捕获效率和解决查询误差传播问题，从而在长距离任务中提高检测性能。论文的主要贡献包括：

提出了一个新颖的基于稀疏查询的框架，通过将2D对象先验整合到3D自适应查询中，扩展了3D检测的感知范围。
开发了透视感知聚合，以从不同尺度和视角捕获信息性特征，以及一种范围调制的3D去噪技术，以解决查询误差传播和收敛问题。
在具有挑战性的长距离Argoverse 2数据集上，Far3D超越了现有的基于环视图像的方法，并在性能上超过了几种基于激光雷达的方法。此外，还在nuScenes数据集上验证了其泛化能力。

在这里插入图片描述

A: 论文通过提出Far3D框架解决长距离3D对象检测的问题，具体方法包括以下几个关键技术：

3D自适应查询（Adaptive Query Generation）：

利用高质量的2D对象检测结果和深度估计来生成3D自适应查询 $(\mathbf{c}_w,\mathbf{c}_h)$ 。
通过空间变换将2D边界框和对应的深度信息投影到3D空间，形成3D提议。
$\mathbf{c_{3d}}=K_i^{-1}I_i^{-1}[\mathbf{c_w}*\mathbf{d_{wh}},\mathbf{c_h}*\mathbf{d_{wh}},\mathbf{d_{wh}},1]^T$
将这些3D提议转化为查询，与全局查询相结合，为后续的解码器层提供更丰富的对象先验。
$\mathbf{Q}_{pos}=PosEmbed(\mathbf{c}_{3d}) \\ \mathbf{Q}_{sem}=SemEmbed(\mathbf{z}_{2d},\mathbf{s}_{2d}) \\ \mathbf{Q}=\mathbf{Q}_{pos}+\mathbf{Q}_{sem}$

透视感知聚合（Perspective-aware Aggregation）：

针对不同距离的对象可能需要不同尺度的特征，提出了透视感知聚合模块。(FPN)
通过3D空间可变形注意力机制，学习每个查询的采样偏移量，并动态地与有利的特征进行交互。
$\mathbf{P}_q^{2d}=\mathbf{I}\cdot\mathbf{K}\cdot(\mathbf{P}_q^{3d}+\Delta\mathbf{P}_q^{3d})$

$\mathbf{I}$ 是相机内参
$\mathbf{K}$ 是相机外参
$(\mathbf{P}_q^{3d}，\Delta\mathbf{P}_q^{3d})$ 3D相关点和可学习的3D偏移量
在这里插入图片描述

范围调制的3D去噪（Range-modulated 3D Denoising）：

针对不同距离的对象具有不同的回归难度，提出了范围调制的3D去噪技术。
通过构建基于真实3D边界框的噪声查询，包括正样本和负样本，来训练模型区分并恢复正确的3D边界框。
$\tilde{\mathbf{P}}=\mathbf{P}_{GT}+\alpha f_p(\mathbf{S}_{GT})+(1-\alpha)f_n(\mathbf{P}_{GT})$