CVPR2023-Detecting Everything in the Open World: Towards Universal Object Detection

文章提出了UniDetector,一个能检测多种类别的对象检测器,解决了传统检测器对人工标注依赖和有限类别泛化能力的问题。通过分区结构促进特征共享和分离proposal生成与RoI分类,以及使用CLN和概率校准方法,提升对新类别的泛化能力。在多种数据集上,UniDetector表现出优于基线方法的性能。
摘要由CSDN通过智能技术生成

面对的问题

(1)对人工标注的依赖(人工可能标注的也有问题)、有限的视觉信息和开放世界中新颖的类别严重限制了传统检测器的普适性。当与现有图像存在显著差异且出现未见类时,必须重新重构数据集才能保证目标检测器的成功,这严重限制了目标检测器的开放世界泛化能力。
作者想表达的意思是: 传统检测器只能检测数据集中存在的类别,比如数据集中有19个类别,它无法检测出这19个类别之外的类别,所以不具有普适性。所以作者将含有这19个类别的数据集和其它特定类别的数据集拿来一起训练,这样就能学习到完整的知识,提高其普适性。
实现上述多源学习的难点在于:
1)难于统一多个异构标签控空间;
2) 在训练时,虽然可以使得网络检测到数据集之外的其他类别,但是,网络会更加倾向于主数据集中的类

创新点

(1)提出了UniDetector,这是一种通用的对象检测器,它能够检测每个场景并预测每个类别(全文大目标)
(2)针对多源数据集训练难于统一于多个异构标签空间的问题,作者采用分区结构促进了特征共享,同时避免了标签冲突。
(3) 针对网会更加倾向于预测基础数据集类别的问题,作者将proposal生成和RoI分类进行分离,避免联合训练。作者还采用了类未知定位网络CLN进行区域建议,并提出概率校准来消除预测的偏差。首先,估计所有类别的先验概率,然后根据先验概率调整预测类别的分布,校准很好地提高了新类的性能

(4)通过解耦训练方式和概率校准,进一步提高了对新类别的泛化能力

方法

CAL网络:
在这里插入图片描述
CAL包含RPN和RoI头,对于第i个proposal,来自于RPN产生的定位置信度为 s i r 1 s_i^{r_1} sir1,来自于ROI头为 s i r 2 s_i^{r_2} sir2,其分类自信度为 s i c s_i^c sic,最终CLN的置信度可以通过几何加权得到,即 w i = ( s i c ) a ( s i r 2 s i r 1 ) 1 − a w_i=(s_i^c)^a(s_i^{r_2}s_i^{r_1})^{1-a} wi=(sic)a(sir2sir1)1a
其中,a是预训练的超参数

结果

(1)训练时有500个类参与训练,能够检测7K个类别
(2)在没有看到任何对应图像的情况下,它比传统有监督学习的baseline方法的精度高了4%以上。在13个不同场景的公共检测数据集上,UniDetector仅用3%的训练数据量就达到了最先进的性能
(3)在COCO数据集上实现了49.3%的精度(还算可以)

代码地址:https://github.com/zhenyuw16/UniDetector.

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值