2021CVPR——3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection

0 基本信息

论文链接:2012.04355.pdf (arxiv.org)
代码链接
GitHub - THU17cyz/3DIoUMatch: [CVPR 2021] PyTorch implementation of 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection.
论文来源:2021 CVPR

1 Motivation

3D目标检测严重依赖大量标注的数据,而3D数据标注是主要瓶颈。因此,需要利用标注和未标注数据的同时训练的3D检测方法。

2 Abstract

3D目标检测严重依赖3D标注数据,但该标注非常困难。因此,我们提出了3DIoUMatch,一种适用于室内外场景的3D半监督方法。基于teacher-student相互学习框架,以伪标签的形式将信息从标注集传播到未标注的训练集。然而,由于任务复杂度较高,伪标签存在显著的噪声,因此不能直接使用。为此,引入confidence-based过滤机制。基于预测的客观性和类别概率,设置置信度阈值来过滤低质量的伪标签,尽管有效,但这两种措施不能充分捕捉定位质量。因此,使用估计的3D IoU 作为定位度量,并设置category-aware自调整阈值来过滤较差的定位建议。实验表明基于室内数据集的VoteNet和基于室外数据集的PV-RCNN,3DIoUMatch均取得了进步。

(思路:3D检测需要大量标注数据——引入3D半监督学习,利用未标注数据生成伪标签——发现伪标签存在噪音——提出confidence-based过滤机制进行筛选——进一步发现该方法不能保证定位质量,又提出3D IoU 进行度量)

3 Introduction

本文提出了3DIoUMatch,一种半监督3D目标检测方法来解决标注瓶颈的问题,保证训练时同时使用标注和未标注数据,且可以适用于室内(ScanNet、SUN-RGBD)或者室外数据集(KITTI)。选择VoteNet和PV-RCNN作为主干检测网络,为了监督未标注场景,基于teacher-student相互学习框架,使用teacher网络的预测结果作为伪标签,监督未标注数据的student网络。然而,伪标签存在显著噪声,直接使用它们是次优的。

受FixMatch启发,半监督学习(SSL)提出confidence-based过滤以提高伪标签质量,我们提出通过设置预测类别概率的阈值(VoteNet的目标得分)的伪标签过滤机制,以过滤teacher proposals以及不属于前景。虽然很有效,但这些标准并不能有效捕获定位质量,伪标签在边界框参数不准确。为此,我们进一步利用估计的IoU作为伪标签过滤的定位质量度量,以滤除定位不好的伪标签。

基于IoU估计的难点是正确设置阈值,3D IoU 对于小错位更加铭感,阈值设置过高会导致伪标签的数量很少,导致网络学不到东西。为了平衡伪标签的数量和质量,提出two-stage过滤机制:首先使用相对较低的IoU阈值,然后是IoU-guided class-aware Lower-Half Suppression (LHS),只删除一半预测的低IoU的高度重叠框。LHS设置了一个动态的和类别感知的阈值,性能优于NMS。

Contribution如下
1.提出一种基于伪标签的点云3D目标检测的半监督方法,以及一种的滤波机制;
2.首次,利用预测的3D IoU作为伪标签GUOLV 的定位置信分数,并进一步提出了IoU-guided class-aware Lower-Half Suppression (LHS),用于鲁棒的消除冗余伪标签;
3.在3D benchmark上性能达到SOTA。

4 Related Work

  1. SSL;
  2. 半监督目标检测;
  3. IoU 估计

5 Method

5.1 IoU-aware 3D Object Detection

  • VoteNet
    votenet框架

  • PV-RCNN

PV-RCNN框架

5.2 3DIoUMatch for SSL on 3D object detection
解决方案由两个训练阶段组成:

  • 一个预训练阶段,在标注数据上训练IoU-aware的VoteNet;
  • SSL阶段,整个数据是伪标注的未标记场景
    在这里插入图片描述

预训练:以监督的方式训练IoU-aware VoteNet,训练结束后,克隆整个网络建立一对teacher-student网络。

Semi-supervised training through a teacher-student framework:
利用标注和未标注数据同时训练网络,具体而言:对于标注数据,以监督学习方式训练student网络(与预训练相同);对于未标注数据,student网络被teacher网络生成的伪标签数据监督。损失如下:
在这里插入图片描述

为了在半监督学习中取得成功,teacher网络要生成高质量的伪标签,并在整个训练过程中,在student网络上保持可靠性能非常关键,因此我们采用EMA teacher。且teacher网络使用weak数据增强,而student网络使用strong数据增强。

5.3 Pseudo-Label Filtering and Deduplication

在某些数据上,teacher网络的预测并不一定比student网络预测的准确,而在未标注数据上,student网络只会在比其预测更准确的伪标签上获益。因此,必须过滤掉teacher网络中低质量的预测。

Jointly filtering based on class, objectness, localization confifidences
对于votenet,先过滤掉预测边界框的目标得分s<Tobj的;进一步设置分类置信度阈值Tcls,过滤掉可能包含错误类别的标签。
然而,上述2个置信度并不能捕捉边界框参数预测的准确性,因此我们提出为每一个边界框预测一个3D IoU,利用 3D IoU 估计作为定位置信度,设置阈值Tiou以过滤定位差的边界框。最终剩下的预测边界框满足上述3个置信度!
在这里插入图片描述

IoU-guided lower-half suppression for deduplication
在confidence-based的过滤之后,仍然有许多重复的预测边界框,可能会给伪标签引入噪声。NMS常用来去除冗余边界框,但votenet中的NMS是基于目标置信度,但是考虑到目标置信度与定位质量不强相关,训练阶段IoU-guided NMS会变小更好,因此使用预测的IoU 与 预测目标置信度的乘积作为排名指标。然而直接选择依据IoU-guided NMS过滤后得分最高的依然不是最优解,因此预测的IoU 不可避免会出错。
因此,作者认为评价指标不必过分严格,进一步提出Lower-Half Suppression (LHS),只过滤掉较低预测 IoU值 一半的proposals。我们认为,由于LHS抑制的边界框共享相同类别标签,这种抑制可以被视为second-step class-aware self-adjusted filtering,它在重叠的边界框之间设置动态阈值,从而在伪标签质量和数量之间找到平衡。我们还使用预测的IoU 与 预测目标置信度的乘积作为置信度度量。
在这里插入图片描述

Final-step pseudo-label processing
经过filtering和IoU-guided LHS 后,从teacher 网络中得到高质量的预测伪标签,为了保证与student 网络的输入同步,这些伪标签也需要经过strong 数据增强。

5.4 Pseudo-Label Filtering and Deduplication
对于生成的伪标签,由于过滤和teacher网络的不准确预测,不能保证标注覆盖所有的GT目标。考虑到伪标签的不完整性,我们相信该集合内的边界框都是对的,但是远离伪标签的目标不一定都是错的!
我们对这一集中的边界框相对有信心,但远离我们所有伪标签的学生预测不一定是负的。实验表明,使用伪标签对未标记数据的客观性会严重影响性能。更具体地说,只强调VoteNet如何选择前景对象进行边界框参数监督的方式:只有当生成该预测的投票在伪标签中任何边界框0.3米内时,我们才监督边界框参数和类别进行预测。

6 Experiment

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述作者:AI新手学习
公众号:AI新手学习
(定期分享最新3D视觉相关论文翻译和笔记)

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值