【论文笔记】Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement

原文链接:https://arxiv.org/abs/2408.07999

简介:自动驾驶中准确检测遮挡或远处物体(称为弱正样本)较为困难,这是因为查询初始化时过度依赖置信度热图,导致了高虚警率并掩盖了弱检测。本文提出Co-Fix3D,使用BEV表达的协同混合多阶段并行查询生成机制。模型包含局部-全局特征增强(LGE)模块,以细化BEV特征,从而更有效地突出弱正样本。使用离散小波变换(DWT)进行定位区域的噪声抑制和特征细化,并引入注意力机制以优化全局BEV特征。此外,LGE的多阶段并行也增加了BEV查询,从而增大了选中弱正样本的概率。实验表明,Co-Fix3D在nuScenes数据集上实现了SotA性能。

1. 概述

在这里插入图片描述
Co-Fix3D包含点云模态和多模态版本,对于点云版本,使用3D主干处理并压缩高度得到BEV特征 F L i D A R ∈ R H × W × 4 C F_{LiDAR}\in\mathbb R^{H\times W\times 4C} FLiDARRH×W×4C,将通道维度减少到 C C C后,得到初始BEV特征 F 0 F_0 F0;对于多模态版本,使用2D主干和LSS得到图像的BEV特征 F C a m e r a ∈ R H × W × C F_{Camera}\in\mathbb R^{H\times W\times C} FCameraRH×W×C,随后进行特征融合得到初始BEV特征 F 0 F_0 F0 F 0 F_0 F0会在LGE模块中被优化,生成BEV热图 H ∈ R H × W × c H\in\mathbb R^{H\times W\times c} HRH×W×c,其中 c c c为类别数。

本文使用多阶段方法生成查询,并使用掩膜机制逐步过滤每个阶段,使得并行的LGE模块受不同的真值监督。掩膜 M ∈ { 0 , 1 } H × W × 1 M\in\{0,1\}^{H\times W\times 1} M{ 0,1}H×W×1被初始化为全1。第 i i i阶段中,选择热图的前 k k k个值,并将掩膜中相应位置 ( w , h ) (w,h) (w,h)和类别 c c c的值 M i ( w , h , c ) M_i(w,h,c) Mi(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值