Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
paper:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
code: https://link.zhihu.com/?target=https%3A//github.com/IDEA-Research/GroundingDINO
细节理解
这篇文章包含了最详细的源码解析,从而理解其中的各种细节!!!
文本提示检测图像任意目标(Grounding DINO) 的使用以及全网最详细源码讲解
GroundingDINO的使用也可以参考:
Grounded-SAM(最强Zero-Shot视觉应用):本地部署及各个模块的全网最详细使用教程!
直接看论文原文可以让自己了解原文的细节之处,之前看别人的文章介绍,总是怕漏掉什么细节,对文章的出发点等都一知半解。因此,我总是先翻译出来原文,方便理解。
Abstract
在本文中,我们提出了一种开放集对象检测器,称为Grounding DINO,通过将基于Transformer的检测器DINO与真值预训练相结合,该检测器可以通过人类输入(如类别名称或指代表达)对任意物体进行检测。开放集目标检测的关键解决方案是将语言引入闭集检测器,用于开集概念泛化。为了有效地融合语言和视觉模态,我们从概念上将闭合集检测器分为三个阶段,并提出了一个紧密的融合解决方案,其中包括一个特征增强器、一个以语言引导的查询选择和一个跨模态的融合。虽然以前的工作主要评估对新类别的开放集对象检测,但我们建议也对用属性指定的对象的指代表达理解进行评估。Grounding DINO在三种配置中都表现得非常好,包括COCO、LVIS、ODinW和RefCOCO/+/g上的基准测试。Grounding DINO在COCO检测零样本传输基准上达到52.5AP,即没有COCO的任何训练数据。用COCO数据微调后,Grounding DINO的AP达到63.0。它在ODinW零样本基准上设置了一个新记录,AP平均值为26.1。