CVPR2024《YOLO-World: Real-Time Open-Vocabulary Object Detection》

最新推荐文章于 2025-04-17 11:44:44 发布

不会CV@

最新推荐文章于 2025-04-17 11:44:44 发布

阅读量1.7k

点赞数 30

文章标签： YOLO 目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_45828825/article/details/139993257

版权

论文：

YOLO-World: Real-Time Open-Vocabulary Object Detection (thecvf.com)https://openaccess.thecvf.com/content/CVPR2024/papers/Cheng_YOLO-World_Real-Time_Open-Vocabulary_Object_Detection_CVPR_2024_paper.pdf代码：GitHub - AILab-CVC/YOLO-World: [CVPR 2024] Real-Time Open-Vocabulary Object Detection[CVPR 2024] Real-Time Open-Vocabulary Object Detection - AILab-CVC/YOLO-World

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不会CV@

关注关注

30
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection，目标检测

q742971636的博客

04-08

3188

YOLO-World是一种实时开放词汇目标检测系统，它通过视觉-语言建模和大规模数据集上的预训练，增强了YOLO（You Only Look Once）系列检测器的开放词汇检测能力。具体来说，该研究提出了一个新的可重新参数化的视-语路径聚合网络（RepVL-PAN）和区域-文本对比损失函数，以促进视觉和语言信息之间的交互。YOLO-World在零样本方式下检测广泛对象类别方面表现出色，并且效率很高。

audyxiao001的博客

09-06

4531

本推文主要介绍了一种开放词汇目标检测的一种新方法，名为YOLO-World。论文主要提出了一种创新的开词汇目标检测方法，通过引入视觉-语言建模和大规模预训练解决了传统YOLO检测器在固定词汇检测中的局限性。

参与评论您还未登录，请先登录后发表或查看评论

【CVPR 2024】CenterPoint Transformer for BEV Object Detection with Automotive Radar

weixin_45657478的博客

07-20

940

【CVPR 2024】CenterPoint Transformer for BEV Object Detection with Automotive Radar

CVPR 2024 | 图像检测类（目标、deepfake、异常）！AIGC扩散模型diffusion解决detection任务...

月流霜的专栏

06-29

1274

它包含三个关键创新：首先，提出强度可控扩散异常合成（SDAS），一种基于扩散过程的合成策略，能够生成具有不同异常强度的样本，模仿真实异常样本的分布。在 Waymo Open、nuScenes 和 Argoverse2 数据集上进行大量实验证明，SAFDNet 在前两个数据集上的性能略优于先前的 SOTA，但在具有长距离检测特点的最后一个数据集上表现更好，验证 SAFDNet 在需要长距离检测的场景中的有效性。然而，在类别增量物体检测（CIOD）中的应用受到很大限制，主要是由于涉及多个标签的场景的复杂性。

论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection

yang_daxia的博客

07-01

1531

RepVL-PAN由多尺度图像特征{C3, C4, C5}形成，利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构：YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成，利用跨模态融合增强文本和图像表示。预训练方案：将实例注释重新定义为区域-文本对，通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS！

YOLO | YOLO-World论文详解

weixin_44649780的博客

02-16

7346

腾讯出的热气腾腾的论文YOLO-World来啦~

YOLO-World: Real-Time Open-Vocabulary Object Detection

猛码Memmat

02-02

2403

yolo-world

YOLO-World-Real-Time-Open-Vocabulary-Object-Detection-CVPR-2024

08-19

yolo-world

YOLO-World的微调:提升模型对新类别和不敏感类别的识别性能————保姆级教程

qq_64758097的博客

12-26

1809

最近我在用 YOLO-World 做室内物体检测时，发现一个问题：墙裙这个类别总是检测不出来。不管是用官方提供的预训练权重，还是直接用默认设置，它都没有被识别出来。于是我就在想，能不能在不再把原有数据训练一遍的情况下，增加一个新的类别呢。考虑到 YOLO-World 结合了 YOLO 检测和 CLIP 跨模态模型，我的思路是利用这两部分的优势进行增强。具体来说，通过收集与新类别（如墙裙）相关的数据集并进行标注，进行单类别训练，让 CLIP 模型通过学习类别的文本描述来识别图像中的新类别特征。

Yolo-Word论文精读

ITdaka的博客

04-30

1531

YOLO-World介绍：为了克服这一限制，作者提出了YOLO-World，这是一种新的方法，它通过视觉-语言建模和在大规模数据集上的预训练，增强了YOLO的开放词汇（open-vocabulary）检测能力。图表中圆圈的大小代表了模型的大小。尽管一些方法通过区域-文本匹配统一了检测数据集和图像-文本数据集，并通过大规模图像-文本对进行预训练，从而取得了有希望的性能和泛化能力，但这些方法通常使用重型检测器，如ATSS或DINO，这些检测器以Swin-L作为骨干网络，导致计算需求高和部署挑战。

CVPR2024论文盘点（10篇）：包括多模态大模型，目标检测，图像分割

热门推荐

SmartLab307的博客

05-29

2万+

通过这种方法，在PASCAL VOC 2012和MS COCO 2014两个标准数据集上的实验不仅验证了CPAL的有效性，还展示了它在提升模型性能方面的显著优势，推动了该领域的进步至新的高度。随着深度学习的快速发展，模型可用训练数据规模呈指数级上升，大规模语言模型和多模态模型的通用理解能力得到了巨大的提高，出现了一批能解决多种任务的统一模型。在推理阶段，通过将先前帧中预测的物体掩码作为它们的视觉提示，UniVS 将不同的视频分割任务转化为以提示为导向的目标分割，消除了启发式的帧间匹配过程。

YOLO-World: Real-Time Open-Vocabulary Object Detection 简介+安装+运行

weixin_42179685的博客

04-13

1913

主干特征网络使用CNN会比Transform架构轻量化许多。YOLO中yolohead的分类器和方框定位中，对分类器进行非常有意思的修改，参考多模态大模型的实现的图文对齐，使其分类器那块不再是每个框的概率，而是变成每个框的特征向量。即每个检测框都有自己的特征向量，通过比对最接近文本类里距离最近的文本特征向量来判断该检测框的类别。待更新。

YOLO-World：实时开放词汇对象检测（论文+代码）

weixin_47151388的博客

04-06

1万+

You Only Look Once （YOLO）系列探测器已成为高效实用的工具。但是，它们对预定义和训练对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一局限性，我们引入了 YOLO-World，这是一种创新方法，通过视觉语言建模和大规模数据集的预训练，增强了 YOLO 的开放词汇检测功能。具体而言，我们提出了一种新的可重新参数化的视觉-语言路径聚合网络（RepVL-PAN）和区域-文本对比损失，以促进视觉和语言信息之间的交互。我们的方法擅长以零射程、高效率检测各种物体。

面向开放词汇的目标检测ECCV2022

白景屹的博客

09-20

2405

在目标检测领域，早期的工作利用视觉属性：比如类别的层次结构，类别的相似度，目标对象的局部part，从而将看得见的类别泛化到看不见的类别；为了节省计算，我们考虑离线学习提示向量，具体来说，我们从LVIS获取基本类别的对象crop，相应地调整它们的大小，并通过冻结的CLIP视觉编码器生成图像嵌入。设想第一个发现秃鹰（Bald eagle）的研究者，他可以简单地给这个物种命名Bald eagle，这群秃鹰的特征是相似的：翼展6-7英尺，深褐色或白色的尾巴，白色的头，明亮的黄色眼睛。，因此被称为开放词汇检测器。

YOLO_World论文详细解读——来自2024年CVPR

LWK999999的博客

11-18

2686

本文对多模态文本视觉目标检测模型YOLO_World进行解读

YOLO-World：实时开放词汇目标检测

AI数据工厂

02-20

4145

本文通读了YOLO-World的论文，翻译了其关键内容。

【论文阅读】YOLO-World | 开集目标检测

kabuto_hui的博客

04-18

2455

通过视觉语言建模和大规模数据集上的预训练来增强YOLO的开发词汇检测能力。YOLO-world提出了一种prompt-then-detect范式：先提示，再检测。即将单词先转化成一系列离线的embedding，再将其重参数为模型的参数，参与到目标检测任务中来。

【Head-DETR系列（4）】【CVPR2024】DETRs Beat YOLOs on Real-time Object Detection

Hali_Botebie的博客

09-18

240

YOLO 系列因其在速度和准确度之间的合理权衡而成为最受欢迎的实时物体检测框架。然而，我们观察到 YOLO 的速度和准确度受到 NMS 的负面影响。最近，基于 Transformer 的端到端检测器 (DETR) 提供了一种消除 NMS 的替代方案。然而，高计算成本限制了它们的实用性，阻碍了它们充分利用排除 NMS 的优势。在本文中，我们提出了实时检测变换器 (RT-DETR)，这是我们所知的第一个解决上述困境的实时端到端物体检测器。我们借鉴先进的 DETR 分两步构建 RT-DETR：首先我们专注于在。

Yolo分割标签类型转Sam标签类型