论文阅读:DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

4 篇文章 0 订阅
2 篇文章 0 订阅

目录

一、整体说明

二、具体解读

1、作者

2、问题介绍

3、模型架构

(1)输入

(2)模型处理

(3)输出

4、数据生成方法

5、生成结果

6、实验

三、总结


一、整体说明

这是一篇CVPR2024 oral的一篇文章,主要实现了一种生成数据标注的方法。

二、具体解读

1、作者

2、问题介绍

Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务,相关的数据集都是视频、BBox、文本描述这3者。(同样的,也可以理解为视频理解任务。)

主流的数据集OTB99_Lang, LaSOT, MGIT都存在一些问题,主要是:

  • 数据集太小了,同时数据偏向某些任务。
  • 数据标注在一些情况下不标准,会误导模型。
  • 目标物体会在视频中移动,文本描述很难精确。

在该文的观点,现有的标注的数据同样还存在的问题是,数据标注风格不统一,数据标注的粒度不一致。短文本标注过于简单,只说明类别和位置;长文本模型处理起来困难。要构建高质量的视频标注的数据集,确实很昂贵。这里提供了一种低价的解决方案,即主体通过LLM来标注和生成文本数据。

3、模型架构

(1)输入

我们给定一个视频帧和相关的BBox,将这些作为SAM的输入。

(2)模型处理

SAM会输出目标的mask,接着,我们将视频帧、mask、一段固定的文本prompt输入到Osprey这个框架中进行编码。其实这里就是将所有的输入都embedding化,然后输入到LLM中,模型就会因为文本的prompt给出一长一短的关于目标的描述。

(3)输出

这里的输出是一对描述。精简的会说明目标的类型和位置,具体的会说明目标的特性和相对位置。

4、数据生成方法

视频会安装每100帧的间隔进行抽样,原因是该文认为人的记忆是4秒,按1秒25帧算100帧大约是4秒。输入第一帧会生成初始的描述,而随后的帧则是持续给出,LLM会以相同的方式持续生成成对的视频标注。

5、生成结果

相比较官方的数据标注,生成的数据标注的数量还是单词数量,都成倍大于官方的数据。

6、实验

这里使用的方法是,使用mmtrack来检验效果,mmtrack会根据给出的文本描述来追踪目标物体。

2种情况。直接使用新标注的数据集和在新数据集上进行一定程度微调。表现的结果都是有一定程度提升,或者不会差太多。

三、总结

这篇文章的主要工作是生成数据集,花的时间是在给视频帧标BBox。文中对于最终的效果和具体连续生成标注的说明或许不重要。重要的是,通过对于初始帧进行标注,然后通过目标追踪的方法持续得到目标的位置,这样就可以对于视频与相关的文本进行对应。这种方法很值得借鉴,结合LLM,或许可以使用在很多视频相关的任务中。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值