原文链接
:
https://openaccess.thecvf.com/content_ICCV_2019/html/Sun_VideoBERT_A_Joint_Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.html
摘要
为利用YouTube等平台上可获得的海量未标注数据,自监督学习的重要性日益显现。现有的大多数方法旨在学习低层次表示,而我们提出了一个不依赖任何显式监督的,用于学习高层次表示的视觉-语言联合模型。特别地,受到最近其在语言模型中的成功的启发,我们我们建立了BERT模型,来从视觉和语言符号中学习双向联合概率分布,视觉和语言符号分别来自于视频数据的向量化和对于现有演讲的自动识别结果。我们在多种任务中应用了VideoBERT, 包括:动作分类和视频添加说明。我们展示了它可以直接应用于开放词汇分类,并证实了大量训练数据以及跨模态信息对模型表现很关键。此外,我们在视频加注释任务中的表现超过了最佳模型,定量实验结果证实了模型学习到了高阶语义特征。
简介
生成式模型
motivation: 以往的视频模型大多关注与低级特征和短时间尺度,难以整体和全面地理解视频内容。
基于三个已有方法: ASR, VQ, BERT
模型用途:即可用于单一模态任务,如给定图像预测未来步骤;又可用于跨模态任务,如给出文字描述,生成一系列图像。
模型
视频tokens是使用一个预训练模型来提取的,语言tokens使用语言转文字模型提取。视频tokens经过随机欠采样,使得模型更加robust,且可获得长时段信息。
模型训练
三部分训练:
- 只使用语言数据
- 只使用视频tokens
- 使用两种模态的信息,进行语言-视觉对齐分类任务(如图所示)
模型训练目标是三个分训练目标的加权和
实验与分析
数据集
预训练模型需要大量数据,现存视频-文本数据集都不够大。为了使得是视频和文本尽量对应,选取烹饪指南、菜谱类视频作为目标。为此,从youtube上检索并获取了超过312k个是视频,总时长约966天。
文本数据获取:使用youtube自带的 automatic speeck recognition(ASR)工具,语音转文字,只使用英文视频素材。
数据预处理
视频:
以20fps的帧率采样,每30帧作为一组,使用经过预训练的视频卷积神经网络来提取特征,这一工作使用S3D模型。S3D网络在kinetics数据集上预训练。使用层次k均值聚类来产生视频tokens。
文本:
由ASR产生的文本序列,使用现有基于LSTM的语言模型来添加标点符号,以实现分隔。对于每个句子,按BERT的文本处理流程处理成词片段(wordpieces)。使用了BERT的词汇表。
将视频按语义分割为片段:
对于有ASR信息的视频,按ASR的时间标记来分割(文本怎么分割,视频就怎么分割);
对于没有ASR信息的,固定取16帧为一个分割。
模型预训练
使用 B E R T L A R G E BERT_{LARGE} BERTLARGE 模型结构,从一个文本预训练检查点初始化模型。为了使模型支持视频tokens,词嵌入表中加入20736个之前获取的视频tokens。input embedding在训练过程中是frozen状态。
零样本动作分类
使用之前获取的数据集预训练模型之后,可以直接在别的类似数据集,如YouCook II上进行零样本分类任务。进一步,可以计算
p
(
y
∣
x
)
p(y|x)
p(y∣x),其中x是视频tokens序列,y是词汇序列。把y固定为一个句式:“now let me show you how to [MASK] the [MASK]”,任务就是预测出一个动词一个名词。
定量研究:
VideoBERT与文本BERT,在文本上训练的videoBERT以及有监督训练的S3D模型的对比。可见,videoBERT显著超过了前两个模型,甚至在top5准确率上接近有监督学习的S3D模型,显示出本模型的竞争力。
大数据集的好处
对于视频加注释任务的迁移学习
将videoBERT用作特征提取器,为visual captioning模型提取特征。为此,构建了一个简单的填空训练任务: 将视频tokens加在一个模板句子之后–“now let’s [MASK] the [MASK] to the [MASK], and then [MASK] the [MASK].”,提取视频tokens和掩盖的文本tokens特征,算出平均值并将两者concat,以用于有监督的下游captioning任务。对于captioning任务,构建一个只使用S3D特征的baseline。任务表现如下表:
具体例子:
讨论
本文使用强大的BERT模型来学习视频-语言的联合表示。实验表明,此模型可以学习到高级表示信息,在对YouCook II数据集的video captioning 任务上表现超过了sota模型,也可用于零样本分类任务。
此工作是学习联合表示这一方向的初步探索,还有很多改进空间。本文对视频信息的提取处理比较粗糙,是基于帧的抽样,无法提取到细粒度的丰富信息。