【复现】Grounding DINO使用记录

推理

问题

1. ModuleNotFoundError: No module named 'groundingdino'

解决: 运行 python setup.py install   编译groundingdino库。或者直接引入环境变量:

linux:

export PYTHONPATH=$PYTHONPATH:/data/groundingdino

windows:

$env:PYTHONPATH = "$env:PYTHONPATH;/data/groundingdino"

2.SSHerror:忘了具体的报错名,总之是使用bert-base-uncased时,huggingface连接超时之类的错误,解决:手动下载:google-bert/bert-base-uncased at main (huggingface.co),并修改代码中相关路径,指向本地存放路径

3. NameError: name '_C' is not defined

解决:CUDA 配置错误,参考官方说明去解决IDEA-Research/GroundingDINO: [ECCV 2024] Official implementation of the paper "Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection" (github.com)

 或者用cpu-only模式,不启用CUDA

4. AttributeError: partially initialized module 'cv2' has no attribute 'gapi_wip_gst_GStreamerPipeline' (most likely due to a circular import)

解决:opencv-python版本过高(我这里是4.10.0.84),需要降版本:

pip install opencv-python==4.5.5.64

5.RuntimeError: No CUDA GPUs are available

首先检查cuda是否可用:

import torch
print(torch.cuda.is_available())  # 应该返回 True

如果返回 False,说明 PyTorch 未正确检测到 CUDA,需要安装适配版本。我这里返回的true,那么就是其他问题,解决方法参考:已解决RuntimeError: No CUDA GPUs are available-CSDN博客

CUDA_VISIBLE_DEVICES需要指定正确的GPU编号,解决

结果

命令:

python demo/inference_on_a_image.py -c groundingdino/config/GroundingDINO_SwinT_OGC.py -p weights/groundingdino_swint_ogc.pth -i data/boat.jpg -o "output" -t "boat" --cpu-only

检测结果:

原图像:

视频推理

根据提供的引用内容,Grounding DINO是一种结合了DINO和基于Transformer的检测器的模型,用于开放式目标检测。它的输入是图像和文本,输出是多个[物体框,名词短语]对。具体来说,Grounding DINO使用DINO模型对图像和文本进行编码,然后使用基于Transformer的检测器对编码后的特征进行检测,最终输出[物体框,名词短语]对。 下面是一个简单的示例代码,演示如何使用Grounding DINO进行开放式目标检测: ```python import torch from torchvision.models.detection import fasterrcnn_resnet50_fpn from transformers import ViTFeatureExtractor, ViTForImageClassification from transformers.models.dino.modeling_dino import DINOHead # 加载预训练的DINO模型和ViT模型 dino = ViTForImageClassification.from_pretrained('facebook/dino-vit-base') dino_head = DINOHead(dino.config) dino_head.load_state_dict(torch.load('dino_head.pth')) dino.eval() vit_feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224') # 加载预训练的Faster R-CNN检测器 model = fasterrcnn_resnet50_fpn(pretrained=True) model.eval() # 输入图像和文本 image = Image.open('example.jpg') text = 'a person riding a bike' # 对图像和文本进行编码 image_features = vit_feature_extractor(images=image, return_tensors='pt')['pixel_values'] text_features = dino_head.get_text_features(text) image_embedding, text_embedding = dino(image_features, text_features) # 使用Faster R-CNN检测器进行目标检测 outputs = model(image_embedding) boxes = outputs[0]['boxes'] labels = outputs[0]['labels'] # 输出[物体框,名词短语]对 for i in range(len(boxes)): print([boxes[i], labels[i]]) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值