【CVPR2023】DetCLIPv2：通过单词-区域对齐实现可扩展的开放词汇目标检测预训练...

最新推荐文章于 2024-05-09 19:46:08 发布

woshicver

最新推荐文章于 2024-05-09 19:46:08 发布

阅读量847

点赞数 2

文章标签：目标检测目标跟踪人工智能计算机视觉机器学习

本文链接：https://blog.csdn.net/woshicver/article/details/133565275

版权

论文题目：DetCLIPv2：Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment

代码：未开源

导读

本文提出了一个创新性的开放词汇目标检测框架DetCLIPv2，这篇论文的工作为开放词汇目标检测领域带来了新的突破。传统目标检测方法通常需要预先定义目标类别，但在现实应用中，我们常常需要检测未知类别的目标，这就是所谓的开放词汇目标检测（OVD）。

DetCLIPv2的独特之处在于，它不依赖于教师模型提供的伪标签，而是通过联合训练多源数据，包括检测、定位和图像文本对，从而实现了定位能力和广泛概念的知识的同时学习。此外，它采用了对比学习来引导图像文本对数据的检测学习，进一步提高了性能。为了应对大规模图像文本对数据的计算复杂性，DetCLIPv2采用了低分辨率输入，从而在保持性能的同时提高了训练效率。实验证明，DetCLIPv2在LVIS基准测试中取得了显著的性能提升。

本文贡献

DetCLIPv2框架：本文引入了DetCLIPv2，一个端到端的开放词汇目标检测预训练框架。这个框架允许模型识别未知类别的目标，而无需预定义的目标类别列表，从而满足了多种实际应用场景的需求。
不依赖教师模型：与其他方法不同，DetCLIPv2不依赖教师模型来提供伪标签或引导训练过程。它通过联合训练多源数据，包括检测、定位和图像文本对，从而同时学习了定位能力和广泛概念的知识。
对比学习引导：为了有效地利用图像文本对数据进行检测学习，DetCLIPv2采用了一种基于最优匹配的集合相似度方法，以指导对比学习，从而提高性能。
低分辨率输入：为了减轻大规模图像文本对数据带来的计算负担，DetCLIPv2采用了低分辨率输入，从而提高了训练效率。

本文方法

本文提出的方法如图 3 所示。DetCLIPv2以端到端的方式执行检测、定位和图像对数据的联合训练。该架构包括以下主要组件：

图像编码器：用于从输入图像中提取区域嵌入（region embeddings）f P。这个组件有助于模型理解图像中的视觉信息。
文本编码器：用于计算输入名词短语的单词嵌入（word embeddings）f T。这个组件有助于模型理解文本信息。

为构建一个强大的开放世界目标检测系统，DetCLIPv2将来自不同数据源的数据，即检测、定位和图像文本对，用于预训练。以下

最低0.47元/天解锁文章

woshicver

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【CVPR2023】DetCLIPv2：通过单词-区域对齐实现可扩展的开放词汇目标检测预训练...

论文题目：DetCLIPv2：Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment代码：未开源导读本文提出了一个创新性的开放词汇目标检测框架DetCLIPv2，这篇论文的工作为开放词汇目标检测领域带来了新的突破。传统目标检测方法通常需要预先定义目标类别，但在现实应用中，我们常常需要检测未知类...
复制链接

扫一扫