DINOv、T-Rex、T-Rex2、GLIP、Grounding DINO论文阅读

南风知我意yi

已于 2024-03-28 17:18:29 修改

阅读量1.9k

点赞数 25

文章标签：论文阅读

于 2024-03-27 20:11:53 首次发布

本文链接：https://blog.csdn.net/zzzzry/article/details/137023947

版权

一、DINOv

效果：视觉提示通用分割、视觉提示参照分割、zero-shot视频对象和部分分割

出发点：在视觉领域利用LLMs做上下文提示（in-context prompting）

贡献：

1）我们是第一个扩展视觉上下文提示来支持通用视觉任务，如开放集通用分割和检测，并实现与基于文本提示的开放集模型相当的性能。

2）我们构建了DINOv，一个基于视觉上下文提示的参考分词和通用分词的统一框架。这种统一简化了模型设计，并允许我们的模型同时使用语义标记和未标记的数据，以获得更好的性能。

3）我们进行了大量的实验和可视化，以表明我们的模型可以处理通用、参考和视频对象分割任务。我们的早期尝试在开放集分割和视觉提示检测方面显示出有希望的结果。

二、T-Rex

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

南风知我意yi

关注关注

25
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

OV-DINO：统一开放词汇检测与语言感知选择性融合

m0_47867638的博客

09-18

1261

开放词汇检测（Open-vocabulary Detection, OVD）是一项挑战性任务，因为它要求基于包括在训练过程中未遇到的类别名称在内的类别名称来检测对象。现有的方法通过在多样化的大规模数据集上进行预训练和伪标签生成，展示了强大的零样本检测能力。然而，这些方法面临两个主要挑战：（i）如何有效消除伪标签生成中的数据噪声；（ii）如何高效利用语言感知能力进行区域级跨模态融合和对齐。

pytorch 45 使用自己的数据对groundingdino进行微调

a486259的博客

04-12

2846

Grounding DINO是一种基于transformer的视觉语言检测方法，它可以根据文字描述检测指定目标。它是在DINO的基础上，增加了多个阶段的视觉语言模态融合，包括特征增强器、语言指导的查询选择模块和跨模态解码器。它可以实现最先进的对象检测器的性能，消除了对NMS等手工模块的依赖。然而在应用到业务数据上还是有所不足，故而需要对Grounding DINO进行微调。本博文基于Grounding-Dino-FineTuning项目实现对自己yolo数据的微调

参与评论您还未登录，请先登录后发表或查看评论

多模态大模型 | GroundingDINO 论文总结

5年+算法工程师，分享人工智能前沿技术，与自己的工程经验，欢迎订阅关注。

05-16

4720

开放集目标检测器GroundingDINO，无需训练，检测任何物体的模型，效果非常好

探访 T-Rex2 家族 Part 2：CountAnything 如何革新行业计数场景

最新发布

一起发掘最前沿、最有趣的 AI 技术和应用。

04-15

917

T-Rex2 是一个基于视觉提示的零样本开集检测模型，其提供了一种更直观的方式来识别那些难以用语言描述的稀有或视觉复杂的对象，这种特性对于解决不同行业场景，尤其是工业场景中的长尾检测问题尤为高效。为此，T-Rex2 的一个重要应用就是拍照计数，并由此衍生出拍照计数工具 CountAnything。

微调Grounding DINO

qq_44908396的博客

10-09

2595

微调grounding dino

【T-Rex Label基础教程】全新的自动化图片标注工具/软件提高效率必备可在线

欢迎来到斑斓的博客，有问题私信交流

09-25

4270

以gif动图的方式介绍了T-Rex Label这款自动辅助的图片标注工具的基本使用方式，并为其创建了一个VOC格式的接口函数。

GroundingDINO微调训练_训练日志解释

ban102055的博客

12-09

1958

这些日志输出帮助我们追踪训练过程中的模型表现，包括学习率、损失、梯度、内存使用等。训练损失由多个部分组成，每个部分表示不同任务的损失，例如分类、边框回归和 IoU。如果损失变化较大，可能需要调整模型结构、学习率、数据预处理等因素。如果你需要进一步优化训练或分析训练过程，可以使用这些信息来判断哪些方面的损失较大，从而调整模型或训练参数。

【开放词汇检测】MM-Grounding-DINO论文翻译

m0_47867638的博客

09-14

1601

摘要 Grounding-DINO 是一种先进的开放式检测模型，能够处理包括开放词汇检测（Open-Vocabulary Detection，OVD）、短语定位（Phrase Grounding，PG）和指代表达理解（Referring Expression Comprehension，REC）在内的多项视觉任务。其有效性使得它成为各种下游应用的主要架构得到了广泛应用。然而，尽管它很重要，原始的 Grounding-DINO 模型由于缺乏训练代码而缺乏全面的公共技术细节。为了弥补这一差距，我们提出了 MM-

【开放词汇检测】基于MMDetection的MM-Grounding-DINO实战

m0_47867638的博客

09-13

3678

基础环境：Ubuntu 22.04、CUDA 11.7Grounding-DINO 是一种先进的开放集检测模型，能够处理包括开放词汇检测（OVD）、短语定位（PG）和指代表达式理解（REC）在内的多种视觉任务。由于其有效性，Grounding-DINO 已被广泛采用为各种下游应用的主流架构。然而，尽管它意义重大，但由于训练代码的不可用性，原始的 Grounding-DINO 模型缺乏全面的公共技术细节。

【23年新文】多模态图像识别和定位—— Grounding DINO 模型的解析和使用

weixin_44483403的博客

01-19

2702

作者文中说到训练了两种backbone的版本，一个叫Grounding-DINO-T，用的是 Swin-T 作为主干，另一个是 Groungind-DINO-L, 用的是 Swin-L 主干。之后下载他们训练好的模型，这里下载的是 SwinT 作为骨干网络的版本，你也可以不在 terminal 里面下载，自己下载到本地（或者是自己上传到服务器）。模型示意图是从下到上看的，具体pipeline参考下文“训练细节”一段（注意左边到右边有淡淡的一个用来映射的色块，可以看到结构放大的细节）

论文阅读：T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy

fishfuck的博客

07-27

1134

提出了一种实用的开集目标检测模型T-Rex2。以往的基于文本提示的开集对象检测方法有效地封装了常见对象的抽象概念，但由于数据稀缺和描述性限制，难以实现稀有或复杂的对象表示。相反，视觉提示擅长通过具体的视觉例子来描述新奇的物体，但不能像文本提示那样有效地传达物体的抽象概念。认识到文本提示和视觉提示的互补优势和劣势，我们引入了T-Rex2，它通过对比学习在单个模型中协同这两个提示。T-Rex2接受各种格式的输入，包括文本提示、视觉提示以及两者的组合，因此它可以通过在两种提示模式之间切换来处理不同的场景。

T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy论文解读

weixin_38252409的博客

06-06

1842

我们呈现了 T-Rex2，一个高度实用的开放式目标检测模型。先前依赖于文本提示的开放式目标检测方法有效地概括了常见对象的抽象概念，但由于数据稀缺和描述限制，对于罕见或复杂的对象表示而言表现不佳。相反，视觉提示在通过具体的视觉示例描绘新对象方面表现出色，但在传达对象的抽象概念方面不如文本提示那样有效。鉴于文本提示和视觉提示的互补优势和劣势，我们引入了 T-Rex2，通过对比学习将两种提示融合到一个单一模型中。

复现微调GroundingDino，训练自己的数据集（详细记录，附源码）

m0_62790681的博客

01-16

3260

复现并微调GroundingDINO模型，训练针对自定义数据集，本项目详细记录了从数据准备、环境配置、模型微调、训练过程到评估结果的所有步骤。

Grounding DINO: Marrying DINO with Grounded Pre-Training forOpen-Set Object Detection

weixin_42390283的博客

04-20

4050

在本文中，我们提出了一种开放集对象检测器，称为Grounding DINO，通过将基于Transformer的检测器DINO与真值预训练相结合，该检测器可以通过人类输入（如类别名称或指代表达）对任意物体进行检测。开放集目标检测的关键解决方案是将语言引入闭集检测器，用于开集概念泛化。为了有效地融合语言和视觉模态，我们从概念上将闭合集检测器分为三个阶段，并提出了一个紧密的融合解决方案，其中包括一个特征增强器、一个以语言引导的查询选择和一个跨模态的融合。

探秘GroundingDINO：一个强化学习与自然语言理解的创新融合

gitblog_00054的博客

03-21

505

探秘GroundingDINO：一个强化学习与自然语言理解的创新融合 GroundingDINO论文 'Grounding DINO: 将DINO与基于地面的预训练结合用于开放式目标检测' 的官方实现。项目地址:https://gitcode.com/gh_mirrors/gr/GroundingDINO 在人工智能的世界中，自然语言处理和强化学习是两个重要的分支。如今，项目将这两者巧妙地结合在...

GroundingDINO（一种开集目标检测算法）服务化，根据文本生成检测框

Awesome Computer Vision, 做计算机视觉的程序员

05-23

3008

最近发现一个叫的开集目标检测算法，所谓开集目标检测就是能检测的目标类别不局限于训练的类别，这个算法可以通过输入文本的prompt然后输出对应的目标框。可以用来做预标注或者其他应用，比如我们要训练某个细分场景的算法时，我们找不到足够的已经标注的数据，就可以先用这个算法预打标。

【实战】使用GroundingDino实现零样本自动标注【附源码】

阿旭的博客

12-01

2341

【实战】使用GroundingDino实现零样本自动标注【附源码】

Grounding DINO论文解读与代码调试

weixin_42479327的博客

03-12

8315

该模型2023.4月发布，是较新，效果很好的Open-Set Object Detection模型，很好玩，但直接做zero-shot还达不到工业部署的水平。我对它的整体评价也如GLIP一样。虽然比GLIP有提升，但效果还有继续提升空间。

Grounding DINO-开集目标检测论文解读