ActBERT:视频文本表征自监督学习

ActBERT能够从未标记的数据中,进行视频文本联合表征的自监督学习。首先,ActBERT能够利用全局动作信息来促进语言文本和局部区域对象之间的相互作用。它从成对的视频序列和文本描述中发现全局和局部的视觉线索,用于视觉文本关系的建模。其次,ActBERT引入了TNT块(TaNgled Transformer Block)来编码全局动作、局部区域对象、语言描述三种信息源。它可以从上下文信息中提取合理的线索来发现全局和局部的对应关系。作者利用视频描述、动作分割、动作步骤定位、文本视频片段检索、视频问答等下游任务验证了ActBERT的泛化能力。结果表明,ActBERT在视频文本表征学习中的优势明显优于其他方法。

图片

Tangled Transformer以三种信息源作为输入,增强了语言特征和视觉特征之间的交互作用。

图片

作者利用跨模态匹配、掩码语言建模、掩码动作分类、掩码目标分类四项任务对ActBERT进行了预训练。

图片

基于YouCook2数据集的视频描述(Video Captioning)实验结果表明,ActBERT在所有指标上的表现都超过了VideoBERT。

图片

基于COIN数据集的动作分割(Action Segmentation)实验结果显示,ActBERT的性能显著优于NN-Viterbi、VGG、TCFPN-ISBA等方法。

图片

基于CrossTASK数据集的动作步骤定位(Action Step Localization)实验结果表明,ActBERT的性能显著优于Supervised、TVJE等方法。

图片

基于YouCook2和MSR-VTT数据集的文本视频片段检索(Text-Video Clip Retrieval)实验结果显示,ActBERT显著优于TVJE和其他基线。

图片

基于MSR-VTT数据集的视频问答(Video Question Answering)实验结果表明,即使没有花哨的联合建模,ActBERT也明显优于JSFusion等方法。

图片

基于LMSDC数据集的视频问答(Video Question Answering)实验结果表明,当目标视频是电影时,ActBERT 能够学习泛化特征,从而获得可观的收益。

总结

ActBERT能够以自监督的方式进行视频文本联合建模。ActBERT可以直接对全局和局部视觉线索进行建模,以细粒度地学习视觉和语言的关系。ActBERT将全局动作、局部区域对象、语言描述三种信息源作为输入,并用Tangled Transformer进一步增强了三个源之间的交互作用。五项视频文本基准上的定量结果证明了ActBERT的有效性。未来,可以考虑利用视频动作识别与检测任务对ActBERT进行评价,也可以设计更强大的视频文本建模模块来提升 ActBERT的性能。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值