【CVPR2023】DetCLIPv2:通过单词-区域对齐实现可扩展的开放词汇目标检测预训练...

3ef64e52d8a9f46a40f32416316e6aaf.png

论文题目:DetCLIPv2:Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

代码:未开源

导读

本文提出了一个创新性的开放词汇目标检测框架DetCLIPv2,这篇论文的工作为开放词汇目标检测领域带来了新的突破。传统目标检测方法通常需要预先定义目标类别,但在现实应用中,我们常常需要检测未知类别的目标,这就是所谓的开放词汇目标检测(OVD)。

DetCLIPv2的独特之处在于,它不依赖于教师模型提供的伪标签,而是通过联合训练多源数据,包括检测、定位和图像文本对,从而实现了定位能力和广泛概念的知识的同时学习。此外,它采用了对比学习来引导图像文本对数据的检测学习,进一步提高了性能。为了应对大规模图像文本对数据的计算复杂性,DetCLIPv2采用了低分辨率输入,从而在保持性能的同时提高了训练效率。实验证明,DetCLIPv2在LVIS基准测试中取得了显著的性能提升。

本文贡献

  • DetCLIPv2框架:本文引入了DetCLIPv2,一个端到端的开放词汇目标检测预训练框架。这个框架允许模型识别未知类别的目标,而无需预定义的目标类别列表,从而满足了多种实际应用场景的需求。

  • 不依赖教师模型:与其他方法不同,DetCLIPv2不依赖教师模型来提供伪标签或引导训练过程。它通过联合训练多源数据,包括检测、定位和图像文本对,从而同时学习了定位能力和广泛概念的知识。

  • 对比学习引导:为了有效地利用图像文本对数据进行检测学习,DetCLIPv2采用了一种基于最优匹配的集合相似度方法,以指导对比学习,从而提高性能。

  • 低分辨率输入:为了减轻大规模图像文本对数据带来的计算负担,DetCLIPv2采用了低分辨率输入,从而提高了训练效率。

相关工作

视觉-语言预训练(VLP):传统的视觉-语言模型通常设计用于特定任务,如视觉问答(VQA)和图像字幕生成等。最近的一个趋势是通过利用大规模低成本的图像文本对来开发通用的视觉-语言表示学习系统。例如,CLIP和ALIGN执行跨模态对比学习,利用数百万的图像文本对,取得了令人印象深刻的零样本图像分类性能。

与DetCLIPv2相关的工作:最相关的工作是FILIP,它提出了一种基于词-图像块相似度的跨模态后期交互机制,以更好地促进图像-文本对齐。然而,将这个思想应用于构建开放词汇检测系统并不简单,而我们提出的方法提供了一个解决方案。

开放词汇目标检测(OVD):OVD近年来作为一种更通用且实际的目标检测范式出现,用于检测无限概念的对象。受到视觉-语言预训练成功的启发,最近的研究提出了将预训练的视觉-语言模型的知识转移到检测器中的方法。还有一种有效的思路是利用更广泛的训练数据源,例如低成本的图像文本对,通过伪标注过程扩展领域覆盖范围。

半监督目标检测(SSOD)弱监督目标检测(WSOD):这些方法旨在通过利用可用标记数据的基础上的未标记数据来改进目标检测系统。然而,它们通常假设了一个封闭的领域设置,其中未标记数据中的类别应该被标记数据覆盖。与这些领域的方法不同,DetCLIPv2考虑了一个更具挑战性的开放领域设置,通过从大规模图像文本对中学习无限概念来建立一个开放世界的目标检测器。

本文方法

7ba9386c91b2db9ccd7b7496f50c9721.png

本文提出的方法如图 3 所示。DetCLIPv2以端到端的方式执行检测、定位和图像对数据的联合训练。该架构包括以下主要组件:

  • 图像编码器:用于从输入图像中提取区域嵌入(region embeddings)f P。这个组件有助于模型理解图像中的视觉信息。

  • 文本编码器:用于计算输入名词短语的单词嵌入(word embeddings)f T。这个组件有助于模型理解文本信息。

为构建一个强大的开放世界目标检测系统,DetCLIPv2将来自不同数据源的数据,即检测、定位和图像文本对,用于预训练。以下是方法的主

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值