VTimeLLM：Empower LLM to Grasp Video Moments

最新推荐文章于 2024-10-02 00:23:27 发布

深海的银

最新推荐文章于 2024-10-02 00:23:27 发布

阅读量877

点赞数 8

分类专栏： CVPR 2024 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44543298/article/details/141535374

版权

CVPR 2024 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

paper：https://arxiv.org/pdf/2311.18445

Abstract：

当前的video LLM只能针对整个视频提供粗糙的（coarse）描述，难以捕捉到某一特定场景的精确的起止。本作中，我们解决了这个问题。我们提出了一种新颖的Video LLM框架：针对细粒度动作理解和推理（从时间范围的角度）。具体来说，我们的模型采用了一种boundary-aware的三阶段训练框架，从以下三个角度有改进：1. 利用了图片-文本对来进行特征对齐；2. 多事件视频来增加模型的时间范围意识；3. 高质量的视频-指令ft来进一步提升时间理解能力（与人类意图对齐）。

Introduction：

当前的LLM无法解决这个问题主要有两个挑战：1. 缺少一个有精确时间范围标注的大规模的视频数据集；2. 需要设计一个高效的时序相关的视频理解LLM。于是我们提出了我们的模型。

我们的模型有以下两个部分组成：1：一个视觉编码器和一个视觉适配器来处理输入视频；2. 一个特制的LLM通过三阶段训练策略来同时理解文本和视频内容。

阶段一：视觉特征通过图片-文本对训练与LLM在语义空间对齐；
阶段二：我们设计了单论（single-turn）和多轮（multi-turn）的QA任务来使得我们的模型能够感知到时间边界和理解时间边界里事件内容的能力。我们采用了一个大规模的video-text数据集（包含粗略的时间范围annotation）；
阶段三：我们创造了一个高质量的对话数据集来指令微调，来和人类意图对齐；

VTimeLLM：

Architecture：

结构很简单，用的VIT的visual encoder+一个可以训练的visual adapter

Boundary-aware Training：

第一阶段中，特征对齐》》旨在训练visual adapter，来对齐视频特征与LLM语义空间；第二阶段中，边界感知》》旨在确保LLM能感知到视频中的特定时刻；第三阶段中，指令微调》》让LLM对齐人类意图，并且能够更精准地定位。

stage1：feature alignment

数据组织：image-text数据集 LCS-588K，不选用视频-文本数据，因为会有很多细节信息被省略

stage2：Boundary Perception

数据组织：采用了InternVid-10M-FLT数据集（采用全自动方法来语义切分、标注视频段）。整个视频包含了多个事件标注信息。

stage3：Instruction Tuning

总之，模型的结构调整很有限；2、3阶段的训练都是通过LORA来实现的；主要想附加给模型的能力，全部通过数据构造来实现（prompt的组织形式），现在看来，针对某一specific的任务，还是训练数据格式+内容质量最重要，最多也就是对齐一下。更本质的语言模型信息还是得仰仗利用的LLM本身自带的。

关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。