论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM

yul1024

已于 2024-09-13 20:52:25 修改

阅读量791

点赞数 17

分类专栏： CV 多模态 LLM 文章标签：论文阅读目标跟踪人工智能计算机视觉目标检测 nlp 深度学习

于 2024-09-03 21:07:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yul1024/article/details/141870739

版权

CV 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

目录

一、整体说明

二、具体解读

2、问题介绍

3、模型架构

（2）模型处理

4、数据生成方法

5、生成结果

一、整体说明

这是一篇CVPR2024 oral的一篇文章，主要实现了一种生成数据标注的方法。

二、具体解读

1、作者

2、问题介绍

Visual Language Tracking (VLT)和single object tracking (SOT)任务是现在比较重要的任务，相关的数据集都是视频、BBox、文本描述这3者。（同样的，也可以理解为视频理解任务。）

主流的数据集OTB99_Lang, LaSOT, MGIT都存在一些问题，主要是：

数据集太小了，同时数据偏向某些任务。
数据标注在一些情况下不标准，会误导模型。
目标物体会在视频中移动，文本描述很难精确。

在该文的观点，现有的标注的数据同样还存在的问题是，数据标注风格不统一，数据标注的粒度不一致。短文本标注过于简单，只说明类别和位置；长文本模型处理起来困难。要构建高质量的视频标注的数据集，确实很昂贵。这里提供了一种低价的解决方案，即主体通过LLM来标注和生成文本数据。

3、模型架构

（1）输入

我们给定一个视频帧和相关的BBox，将这些作为SAM的输入。

（2）模型处理

SAM会输出目标的mask，接着，我们将视频帧、mask、一段固定的文本prompt输入到Osprey这个框架中进行编码。其实这里就是将所有的输入都embedding化，然后输入到LLM中，模型就会因为文本的prompt给出一长一短的关于目标的描述。

（3）输出

这里的输出是一对描述。精简的会说明目标的类型和位置，具体的会说明目标的特性和相对位置。

4、数据生成方法

视频会安装每100帧的间隔进行抽样，原因是该文认为人的记忆是4秒，按1秒25帧算100帧大约是4秒。输入第一帧会生成初始的描述，而随后的帧则是持续给出，LLM会以相同的方式持续生成成对的视频标注。

5、生成结果

相比较官方的数据标注，生成的数据标注的数量还是单词数量，都成倍大于官方的数据。

6、实验

这里使用的方法是，使用mmtrack来检验效果，mmtrack会根据给出的文本描述来追踪目标物体。

2种情况。直接使用新标注的数据集和在新数据集上进行一定程度微调。表现的结果都是有一定程度提升，或者不会差太多。

三、总结

这篇文章的主要工作是生成数据集，花的时间是在给视频帧标BBox。文中对于最终的效果和具体连续生成标注的说明或许不重要。重要的是，通过对于初始帧进行标注，然后通过目标追踪的方法持续得到目标的位置，这样就可以对于视频与相关的文本进行对应。这种方法很值得借鉴，结合LLM，或许可以使用在很多视频相关的任务中。

关注

17
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yul1024 CSDN认证博客专家 CSDN认证企业博客

码龄43天

4: 原创

149万+: 周排名

12万+: 总排名

3209: 访问

: 等级

109: 积分

53: 粉丝

69: 获赞

1: 评论

54: 收藏

私信

关注

热门文章

分类专栏

CV 4篇
多模态 4篇
LLM 2篇
agent 1篇
情感计算 1篇

最新评论

论文阅读：VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：How you feelin‘? Learning Emotions and Mental States in Movie Scenes
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Koala: Key frame-conditioned long video-LLM
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619293449。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。