由文本提示检测图像任意目标(Grounding DINO)论文详细阅读: Marrying DINO for Open-Set Object Detection

最新推荐文章于 2025-04-08 01:00:00 发布

小小帅AIGC

最新推荐文章于 2025-04-08 01:00:00 发布

阅读量9.7k

点赞数 32

分类专栏： VLM多模态论文阅读/源码解析文章标签：目标检测人工智能计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136154974

版权

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

paper:Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

code: https://link.zhihu.com/?target=https%3A//github.com/IDEA-Research/GroundingDINO

细节理解

这篇文章包含了最详细的源码解析，从而理解其中的各种细节！！！
文本提示检测图像任意目标(Grounding DINO) 的使用以及全网最详细源码讲解

GroundingDINO的使用也可以参考：
Grounded-SAM（最强Zero-Shot视觉应用）：本地部署及各个模块的全网最详细使用教程！

直接看论文原文可以让自己了解原文的细节之处，之前看别人的文章介绍，总是怕漏掉什么细节，对文章的出发点等都一知半解。因此，我总是先翻译出来原文，方便理解。

Abstract

在本文中，我们提出了一种开放集对象检测器，称为Grounding DINO，通过将基于Transformer的检测器DINO与真值预训练相结合，该检测器可以通过人类输入（如类别名称或指代表达）对任意物体进行检测。开放集目标检测的关键解决方案是将语言引入闭集检测器，用于开集概念泛化。为了有效地融合语言和视觉模态，我们从概念上将闭合集检测器分为三个阶段，并提出了一个紧密的融合解决方案，其中包括一个特征增强器、一个以语言引导的查询选择和一个跨模态的融合。虽然以前的工作主要评估对新类别的开放集对象检测，但我们建议也对用属性指定的对象的指代表达理解进行评估。Grounding DINO在三种配置中都表现得非常好，包括COCO、LVIS、ODinW和RefCOCO/+/g上的基准测试。Grounding DINO在COCO检测零样本传输基准上达到52.5AP，即没有COCO的任何训练数据。用COCO数据微调后，Grounding DINO的AP达到63.0。它在ODinW零样本基准上设置了一个新记录，AP平均值为26.1。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。