基于YOLOv8,YOLO新作来了!

本月初,腾讯人工智能实验室发布了real-timeopen-vocabularyzero-shot物体检测模型 YOLO-World旨在提升开放词汇检测能力以及解决现有zero-shot目标检测模型的限制:速度

与其他使用Transformer这种功能强大但速度慢的架构不同的是,YOLO-World基于CNN

paper | https://arxiv.org/abs/2401.17270
code | https://github.com/AILAB-CVC/YOLO-World

我们知道传统的对象检测模型,如 Faster R-CNN、SSD 和 YOLO(老演员了),旨在识别其预定义好的数据集内的对象,如PASCAL、COCO等,这就限制了在与训练数据范围相匹配的场景中的泛化性。要扩展或改变可识别类别集,就必须在为新类别量身定制的数据集上重新训练或微调模型

Open-Vocabulary Object Detection干了啥?

由于fixed-vocabulary 检测器的局限,Open-Vocabulary Object Detection(OVD)模型旨在识别预定义类别之外的物体。如 GLIPGrounding DINO等早期方法,侧重于利用大规模图像文本数据来扩展训练词汇,从而实现对新物体的检测。所要做的就是提示模型并指定要寻找的对象

GroundingDINO“椅子”与“狗尾巴”提示

然而这些早期方法往往体积较大,计算密集度较高,需要同时对图像和文本进行编码以进行预测,带来的延迟会妨碍实际应用

YOLO-World可以在提示中理解上下文以提供检测,不需要在特定类别上训练模型,因为该模型已使用图像文本对(image-text pairs)和基础图像( grounded images)进行了训练,模型学会了如何接受任意提示,例如“穿白衬衫的人”,并将其用于检测

不同对象检测推理范例的比较

YOLO-World 引入了 "先提示后检测 "模式,一种避免实时文本编码的新方法,允许用户生成提示,然后将其编码为离线词汇。通过将一系列用户生成的提示预先编码到离线词汇表中,绕过了实时文本编码的需要,从而实现了更快、适应性更强的检测

YOLO-World模型结构是啥样的?其主要包含三个关键部分

  • YOLO Detector - 基于Ultralytics YOLOv8,从输入图像中提取多尺度特征
  • 文本编码器 - 由OpenAI CLIP预训练的Transformer文本编码器,将文本编码为文本嵌入
  • Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)- 在图像特征和文本嵌入之间执行多级跨模态融合,促进多尺度图像特征与文本嵌入之间的交互。RepVL-PAN 可将用户的离线词汇重新参数化为模型参数,以便快速推理和部署

在这里插入图片描述

YOLO-World 提供三种模型largemediumsmall,在 LVIS 数据集上对模型进行了基准测试,在没有任何性能加速机制(如量化或 TensorRT)的情况下基于 V100 测试了性能。结果表明YOLO-World 的large版本达到了 35.4 AP(52.0 FPS),small版本达到了 26.2 AP(74.1 FPS)

在这里插入图片描述

感兴趣的可在如下地址进一步体验与了解

https://huggingface.co/spaces/stevengrove/YOLO-World

我是啥都生,下次再见~

  • 22
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啥都生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值