人工智能咨询培训老师叶梓 转载标明出处
如何让机器有效地理解和处理视频内容,一直是计算机视觉领域的一个挑战。最近,Google Research的研究人员提出了一种名为VideoPrism的新型视频编码器,旨在通过单一的冻结模型处理多样化的视频理解任务。以往的模型往往在处理注重外观的任务和以运动为中心的推理时难以平衡,导致在多个基准测试中落后于特定任务的专用模型。VideoPrism通过统一的模型,能够处理包括分类、定位、检索、字幕生成和问题回答等在内的广泛视频理解任务。

方法
VideoPrism的预训练数据由两部分组成:3600万个带手动标注字幕的高质量视频片段,以及5820万个带有噪声并行文本的视频片段。这些数据分别来自Anonymous-Corpus #1和其它几个数据集,如WTS-70M、YT-Temporal-180M等。这些视频片段不仅数量庞大,而且涵盖了从日常生活到科学观察的多个领域。
尽管3600万视频-字幕对是迄今为止用于视频基础模型(ViFMs)的最大数据集,但与用于图像基础模型(FMs)的图像-语言数据相比,仍然小了一个数量级。因此,研究团队还收集了大量通过自动语音识别(ASR)、元数据和大型多模态模型生成的噪声文本的视频-文本数据。
另外为了避免模型过度适应特定的评估基准,VideoPrism的预训练数据有意避免使用任何评估基准(如Kinetics)的训练集。同时,为了确保没有数据泄露,预训练语料库经过仔细的去重处理,与本文使用的33个评估基准中的所有视频进行了对比。

VideoPrism的模型架构基于标准的Vision Transformer(ViT),并采用了ViViT的时空分解设计。然而,与ViViT不同,VideoPrism去除了空间编码器后立即进行的全局平均池化层,这样做的目的是保留输出令牌序列中的时空维度,以便于需要细粒度特征的下游任务,例如时空动作定位。