VideoBERT: A Joint Model for Video and Language Representation Learning(论文笔记)


原文链接
https://openaccess.thecvf.com/content_ICCV_2019/html/Sun_VideoBERT_A_Joint_Model_for_Video_and_Language_Representation_Learning_ICCV_2019_paper.html

摘要

为利用YouTube等平台上可获得的海量未标注数据,自监督学习的重要性日益显现。现有的大多数方法旨在学习低层次表示,而我们提出了一个不依赖任何显式监督的,用于学习高层次表示的视觉-语言联合模型。特别地,受到最近其在语言模型中的成功的启发,我们我们建立了BERT模型,来从视觉和语言符号中学习双向联合概率分布,视觉和语言符号分别来自于视频数据的向量化和对于现有演讲的自动识别结果。我们在多种任务中应用了VideoBERT, 包括:动作分类和视频添加说明。我们展示了它可以直接应用于开放词汇分类,并证实了大量训练数据以及跨模态信息对模型表现很关键。此外,我们在视频加注释任务中的表现超过了最佳模型,定量实验结果证实了模型学习到了高阶语义特征。
在这里插入图片描述

简介

生成式模型
motivation: 以往的视频模型大多关注与低级特征和短时间尺度,难以整体和全面地理解视频内容。

基于三个已有方法: ASR, VQ, BERT

模型用途:即可用于单一模态任务,如给定图像预测未来步骤;又可用于跨模态任务,如给出文字描述,生成一系列图像。

模型

在这里插入图片描述
视频tokens是使用一个预训练模型来提取的,语言tokens使用语言转文字模型提取。视频tokens经过随机欠采样,使得模型更加robust,且可获得长时段信息。</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>