由文本提示检测图像任意目标(Grounding DINO)论文详细阅读: Marrying DINO for Open-Set Object Detection

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

paper:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

code: https://link.zhihu.com/?target=https%3A//github.com/IDEA-Research/GroundingDINO

细节理解

这篇文章包含了最详细的源码解析,从而理解其中的各种细节!!!
文本提示检测图像任意目标(Grounding DINO) 的使用以及全网最详细源码讲解

GroundingDINO的使用也可以参考:
Grounded-SAM(最强Zero-Shot视觉应用):本地部署及各个模块的全网最详细使用教程!

直接看论文原文可以让自己了解原文的细节之处,之前看别人的文章介绍,总是怕漏掉什么细节,对文章的出发点等都一知半解。因此,我总是先翻译出来原文,方便理解。

Abstract

在本文中,我们提出了一种开放集对象检测器,称为Grounding DINO,通过将基于Transformer的检测器DINO与真值预训练相结合,该检测器可以通过人类输入(如类别名称或指代表达)对任意物体进行检测。开放集目标检测的关键解决方案是将语言引入闭集检测器,用于开集概念泛化。为了有效地融合语言和视觉模态,我们从概念上将闭合集检测器分为三个阶段,并提出了一个紧密的融合解决方案,其中包括一个特征增强器、一个以语言引导的查询选择和一个跨模态的融合。虽然以前的工作主要评估对新类别的开放集对象检测,但我们建议也对用属性指定的对象的指代表达理解进行评估。Grounding DINO在三种配置中都表现得非常好,包括COCO、LVIS、ODinW和RefCOCO/+/g上的基准测试。Grounding DINO在COCO检测零样本传输基准上达到52.5AP,即没有COCO的任何训练数据。用COCO数据微调后,Grounding DINO的AP达到63.0。它在ODinW零样本基准上设置了一个新记录,AP平均值为26.1。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值