VisualBERT:简单而有效的视觉语言基线

VisualBERT是一个简单而灵活的框架,用于对广泛的视觉和语言任务建模。VisualBERT由一堆Transformer层组成,这些层利用自注意力机制将输入文本元素和相应的输入图像区域隐式对齐。作者进一步提出了两个基于视觉的语言模型目标,用于在图像字幕数据上预训练VisualBERT。

图片

图片

图片

在VQA、VCR、NLVR和Flickr30K四种视觉-语言任务上的实验表明,VisualBERT在显著简化的同时,其性能优于或相当于最先进的模型。进一步的分析表明,VisualBERT可以在没有任何显式监督的情况下建立语言元素和图像区域之间的联系,甚至对句法关系和追踪有一定敏感性。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值