paper:https://arxiv.org/pdf/2311.18445
Abstract:
当前的video LLM只能针对整个视频提供粗糙的(coarse)描述,难以捕捉到某一特定场景的精确的起止。本作中,我们解决了这个问题。我们提出了一种新颖的Video LLM框架:针对细粒度动作理解和推理(从时间范围的角度)。具体来说,我们的模型采用了一种boundary-aware的三阶段训练框架,从以下三个角度有改进:1. 利用了图片-文本对来进行特征对齐;2. 多事件视频来增加模型的时间范围意识;3. 高质量的视频-指令ft来进一步提升时间理解能力(与人类意图对齐)。
Introduction:
当前的LLM无法解决这个问题主要有两个挑战:1. 缺少一个有精确时间范围标注的大规模的视频数据集;2. 需要设计一个高效的时序相关的视频理解LLM。于是我们提出了我们的模型。
我们的模型有以下两个部分组成:1:一个视觉编码器和一个视觉适配器来处理输入视频;2. 一个特制的LLM通过三阶段训练策略来同时理解文本和视频内容。
- 阶段一:视觉特征通过图片-文本对训练与LLM在语义空间对齐;
- 阶段二:我们设计了单论(single-turn)和多轮(multi-turn)的QA任务来使得我们的模型能够感知到时间边界和理解时间边界里事件内容的能力。我们采用了一个大规模的video-text数据集(包含粗略的时间范围annotation);
- 阶段三:我们创造了一个高质量的对话数据集来指令微调,来和人类意图对齐;
VTimeLLM:
Architecture:
结构很简单,用的VIT的visual encoder+一个可以训练的visual adapter
Boundary-aware Training:
第一阶段中,特征对齐》》旨在训练visual adapter,来对齐视频特征与LLM语义空间;第二阶段中,边界感知》》旨在确保LLM能感知到视频中的特定时刻;第三阶段中,指令微调》》让LLM对齐人类意图,并且能够更精准地定位。
stage1:feature alignment
数据组织:image-text数据集 LCS-588K,不选用视频-文本数据,因为会有很多细节信息被省略
stage2:Boundary Perception
数据组织:采用了InternVid-10M-FLT数据集(采用全自动方法来语义切分、标注视频段)。整个视频包含了多个事件标注信息。
stage3:Instruction Tuning
总之,模型的结构调整很有限;2、3阶段的训练都是通过LORA来实现的;主要想附加给模型的能力,全部通过数据构造来实现(prompt的组织形式),现在看来,针对某一specific的任务,还是训练数据格式+内容质量最重要,最多也就是对齐一下。更本质的语言模型信息还是得仰仗利用的LLM本身自带的。