原文链接:
https://openaccess.thecvf.com/content_ICCV_2019/html/Sun_VideoBERT_A_Joint_Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.html
摘要
为利用YouTube等平台上可获得的海量未标注数据,自监督学习的重要性日益显现。现有的大多数方法旨在学习低层次表示,而我们提出了一个不依赖任何显式监督的,用于学习高层次表示的视觉-语言联合模型。特别地,受到最近其在语言模型中的成功的启发,我们我们建立了BERT模型,来从视觉和语言符号中学习双向联合概率分布,视觉和语言符号分别来自于视频数据的向量化和对于现有演讲的自动识别结果。我们在多种任务中应用了VideoBERT, 包括:动作分类和视频添加说明。我们展示了它可以直接应用于开放词汇分类,并证实了大量训练数据以及跨模态信息对模型表现很关键。此外,我们在视频加注释任务中的表现超过了最佳模型,定量实验结果证实了模型学习到了高阶语义特征。

简介
生成式模型
motivation: 以往的视频模型大多关注与低级特征和短时间尺度,难以整体和全面地理解视频内容。
基于三个已有方法: ASR, VQ, BERT
模型用途:即可用于单一模态任务,如给定图像预测未来步骤;又可用于跨模态任务,如给出文字描述,生成一系列图像。
模型

视频tokens是使用一个预训练模型来提取的,语言tokens使用语言转文字模型提取。视频tokens经过随机欠采样,使得模型更加robust,且可获得长时段信息。</

最低0.47元/天 解锁文章
577

被折叠的 条评论
为什么被折叠?



