- 问题引入
- 视觉数据有不同的来源,图片视频3d数据等,在spatial和temporal维度上尺度都是不一致的,当前的MLLM将数据进行标准化到固定的尺度之后得到固定数目的token,本文提出的方法专门针对不同尺度的输入;
- 本文主要的创新点是1)pre-trained visual encoder OryxViT 2)dynamic compression technique来将尺寸特别大的数据进行压缩 3)Enhanced data curation and training strategies
- methods
- 原本vit对于一张输入的尺寸为 H × W H\times W H×W的图片,首先将其resize到固定的大小 N × N N\times N N×N,之后分为 p × p p\times p p×p大小的patch,得到一个长度为 ( N / p ) × ( N / p ) (N/p)\times (N/p) (N/p)×(N/p)的sequence,此时还会加上一个固定长度的positional encoding,本文希望首先支持不同尺度的输入,对于position embedding部分,首先预设定了一个对应 2048 × 2048 2048\times 2048 2048×2048尺寸的position embedding,对于更大的尺寸,可以进行差值操作得到;对于原始的输入也去掉了resize这一个步骤;对于不同尺度输入还有一个问题就是在batch处理的操作,此时是将不同的item在 l l l维度也就是sequence length这一个维度进行拼接,之后使用flash attention中的ariable-length attention operator操作进行处理;
- ON-DEMAND DYNAMIC COMPRESSION:对于不同context的数据区别对待,整体分为图片,短视频,长视频,分别对应的downsampler为 d 1 , d 2 , d 3 d_1,d_2,d_3 d1,d2,d3,其中 d 3 = 4 d 2 = 16 d 1 d_3=4d_2=16d_1 d3=4d2=16d1,downsample f H f_H fH后得到的low resolution feature map f L f_L fL,为了减小downsample带来的影响,以 f H f_H fH为 k , v k,v k,v,以 f L f_L fL为 q q q进行cross attention操作;
- Long-Form Temporal Training:对于长视频,采用caption和differ两个任务进行训练;
- 对于3d数据,多视角图片不像视频那样存在temporal上面的关系,所以使用tracking anything进行标注数据,使得同一个物体在不同image中的label是一样的
- 训练的pipeline:两个阶段,1)使用图片文本对进行训练2)混合训练多类型数据