多模态-文本提示检测图像GroundingDINO运行

最新推荐文章于 2025-03-07 17:01:34 发布

August学AI

最新推荐文章于 2025-03-07 17:01:34 发布

阅读量822

点赞数 10

文章标签：深度学习视觉检测 transformer

本文链接：https://blog.csdn.net/weixin_43720054/article/details/136305492

版权

1. git clone

git clone https://github.com/IDEA-Research/GroundingDINO.git

也可手动下载：https://github.com/IDEA-Research/GroundingDINO

2. 安装所需的依赖项

pip install -e .

我用该方法老是报错或者直接卡掉，选用第二种方法：

python setup.py install

3. 下载预训练权重

wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

4. 创建一个新的python文件

命名为：grounding_dino_demo.py 放在GroundingDINO目录下，其代码如下:

from groundingdino.util.inference import load_model, load_image, predict, annotate, Model
import cv2
C

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

August学AI

关注关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Grounding DINO 是一种先进的零样本物体检测模型，由 IDEA-Research 在2023年开发

强化学习曾小健

09-18

530

的对象，并适应新的对象和场景，使其在各种实际应用中具有很高的通用性和灵活性。Grounding DINO 是一种先进的零样本物体检测模型，由。Grounding DINO 是一个革命性的算法，广泛应用于。，每个框都有所有输入词的相似度评分。领域，展示了其强大的泛化能力和多样化的应用场景。Grounding DINO 的主要优势在于其。此外，Grounding DINO 还被用于。”，从而在AI系统中实现更高效的物体检测。Grounding DINO的推出。来生成图像中的特定位置的对象。

【23年新文】多模态图像识别和定位—— Grounding DINO 模型的解析和使用

weixin_44483403的博客

01-19

2673

作者文中说到训练了两种backbone的版本，一个叫Grounding-DINO-T，用的是 Swin-T 作为主干，另一个是 Groungind-DINO-L, 用的是 Swin-L 主干。之后下载他们训练好的模型，这里下载的是 SwinT 作为骨干网络的版本，你也可以不在 terminal 里面下载，自己下载到本地（或者是自己上传到服务器）。模型示意图是从下到上看的，具体pipeline参考下文“训练细节”一段（注意左边到右边有淡淡的一个用来映射的色块，可以看到结构放大的细节）

2 条评论您还未登录，请先登录后发表或查看评论

groundingdino-swint-ogc.pth

08-02

groundingdino模型

Grounding DINO+SAM实例分割：用Python实现文字驱动分割

最新发布

qq_24219039的博客

03-07

529

它基于 Transformer 架构，将文本语义与视觉特征深度融合，实现开放词汇（Open-Vocabulary）的物体检测。SAM（Segment Anything Model）是 Meta 提出的通用图像分割模型，能够对图像中的任意物体生成像素级分割掩码。将".jpg"格式的图片准备好放入imgs文件夹中，运行后终端提示“请输入图号：”，此时输入文件名按下回车，每次循环运行完可查看result.jpg文件。：文字驱动的目标检测器，通过文字描述定位图像中的物体。：输入："穿红衣服的人"；

多模态图像识别

qq_40905284的博客

03-21

2457

多模态图像识别技术的调研

【多模态/CV】图像数据增强数据分析和处理

发现问题，并解决问题，批判性思维

06-08

1795

多模态大模型训练前，图片处理的常见操作：分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接等。ORB(Oriented FAST and Rotated BRIEF) 是一种计算机视觉中常用的特征检测算法,它将 FAST 关键点检测和 BRIEF 描述符生成结合起来，同时引入了方向性和尺度不变性。使用 ORB 进行特征检测可以有以下几个应用: - 目标识别:在多幅图像中检测相同的ORB 特征点,并通过这些点的匹配确定目标物体的位置和方向 - 图像匹配:在两幅图像中检测 ORB 特

【开放集目标检测】Grounding DINO

研究兴趣：开放集识别、开放世界识别、新类发现、增量学习、少样本学习

07-07

5980

Grounding DINO：该方法融合了文本和图像两个模态的数据，实现了开放集目标检测，即给定一个文本提示，自动框出目标所在，该目标可以是训练集中没有的类别。该方法主要通过特征增强模块、语言指导查询选择模块、跨模态解码模块实现上述功能。

windows下编译过的groundingdino-0.1.0-cp38-cp38-win-amd64.whl文件

03-05

这种技术尤其适合处理图像与文本的结合任务，如视觉问答、跨模态检索等。在Windows环境下，安装和使用基于Python的深度学习库或模型往往需要一个相对繁琐的过程，因为它涉及到对不同依赖库的兼容性考虑。而在...

多模态大模型 | GroundingDINO 论文总结

5年+算法工程师，分享人工智能前沿技术，与自己的工程经验，欢迎订阅关注。

05-16

4625

开放集目标检测器GroundingDINO，无需训练，检测任何物体的模型，效果非常好

多模态大模型 | CLIP论文总结 | 2021.02.26 OpenAI | 打通图像-文本

5年+算法工程师，分享人工智能前沿技术，与自己的工程经验，欢迎订阅关注。

01-09

1350

即使你学习到了很好的特征，当你运用到下游任务的时候，你还是需要有标签的数据去做微调。把对比学习中的temperature这个超参数，设计为可学习的标量了，直接在模型训练过程中就被优化了，不需要当成一个超参数去调参。之前的自监督或者无监督的方法，主要研究的是特征学习的能力，他们的目标是学习一个泛化比较好的特征。现在的监督信号是一个文本，而不是n选1的这种标签了，所以模型的输入输出啊，自由度就大很多。训练出来的模型又大又好，而且又简单，泛化性又好，为多模态的训练铺平了道路。

多模态：图像分割SAM

WiSirius的博客

02-01

2911

图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起，如目标检测，图像分割，这些技术引入图像生成相关技术的pipeline中，可以设计出更多创新性的算法。而这些基础技术也有了一些大模型，如目标检测的GroundingDINO，图像分割的SAM（segment anything model）。本文主要对SAM进行介绍。SAM是一个交互式分割模型，可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。整体上来说，SAM的模型结构说不上十分复杂，但其令人竟然的数据工程和训练方式实在让人赞叹。

GroundingDINO运行教程

m0_56569131的博客

01-26

3712

解决警告：到报警告的代码上，更改代码为 return _VF.meshgrid(tensors, **kwargs, indexing="ij")解决办法：由于服务器不能科学上网，所以不能在线下载bert预训练模型，在项目根目录运行 git clone。还有两个警告没有解决，但是不影响程序运行，还有下面的问题，我没遇到过，但是也注意一下。，更改groundingdino/util/get_tokenlizer.py代码。后续会出这篇论文的详解和训练代码和教程.......请关注一下。

在Pycharm运行GroundingDINO

weixin_70351416的博客

11-28

1049

这个我查询网站需要安装CUDA Toolkit加上cuDNN，我安装的版本的12.1，可以参考下面的帖子，我的torch的cuda版本也是12.1。原来我的pycocotools版本为2.0.2，然后我将它升级为2.0.7。安装后Anaconda Prompt设置环境变量。最后重新运行test.py程序就可以了。在test.py中输入下面的代码。有很多warning我都没有管。然后在项目目录中重新安装项目。

GroundingDINO+SAM官方demo本地配置运行

Regisa的博客

03-03

6637

grounded-sam官方demo本地部署，参照官方文档一步一步的操作发现还是有些问题，之后又参考了相关博客，基本已经能够运行，但有些细节还需指出。

GroundingDINO（一种开集目标检测算法）服务化，根据文本生成检测框

Awesome Computer Vision, 做计算机视觉的程序员

05-23

2969

最近发现一个叫的开集目标检测算法，所谓开集目标检测就是能检测的目标类别不局限于训练的类别，这个算法可以通过输入文本的prompt然后输出对应的目标框。可以用来做预标注或者其他应用，比如我们要训练某个细分场景的算法时，我们找不到足够的已经标注的数据，就可以先用这个算法预打标。

【利用GroundingDINO裁剪分类任务的数据集】及文本提示检测图像任意目标(Grounding DINO) 的使用

ban102055的博客

07-10

2008

如果您有 CUDA 环境，请确保设置了环境变量 CUDA_HOME。如果没有可用的 CUDA，它将在仅 CPU 模式下编译。该脚本指定目录后，会对该目录下子文件夹的不同目标类别，进行裁剪并将裁剪结果放在与原路径对应的相对路径种。是因为timm版本和cuda，pytorch等版本不匹配重新安装可以解决这个bug。需要下载下面的三个文件，放进text_encoder_type里面就好。

微调Grounding DINO

qq_44908396的博客

10-09

2326

微调grounding dino

开放目标检测Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 论文阅读笔记

乄洛尘

10-08

3991

本文提出一个开放目标检测器 Grounding DINO，采用基于 Transformer 的 DINO 框架+预训练，能够检测任意输入类别或表达式对应的目标。开放目标检测的关键在于引入语言到一个闭集的检测器中，从而实现开放的概念泛化。于是本文提出将闭集的检测器划分为三个阶段并提出一种轻量化的融合方法，包含一个特征增强器，一个语言引导的 query 选择，一个跨模态的检测器用于跨模态融合。之前的工作主要评估模型在新类别上的性能，而本文也提出在指代表达式理解进行评估。

多模态目标检测：开启视觉识别的新维度

2401_85763639的博客

07-23

1848

多模态目标检测利用了来自不同模态的数据，如视觉图像、深度图像、雷达信号、声音等，以获得更全面的理解和更准确的检测结果。这种方法尤其适用于复杂场景，其中单一模态可能无法提供足够的信息。