LXMERT:视觉语言跨模态框架

视觉语言推理要求模型能够理解视觉概念和语言语义,以及两者之间的关系,并将他们对齐。因此,作者提出了LXMERT框架来用学习视觉语言之间的关系。在LXMERT中,作者建立了一个大规模Transformer模型,它有三个编码器:对象关系编码器、语言编码器和跨模态编码器。为了使LXMERT能够将视觉概念和语言语义关联起来,作者利用掩码语言建模、掩码目标预测、跨模态匹配、图像问答等预训练任务,在大量“图像句子对”数据集上对模型进行了预训练。这些任务有助于模型学习模态内部和模态之间的关系。作者对LXMERT的预训练参数进行微调后,发现它在VQA和GQA两个视觉问答数据集上都取得了最先进的结果。作者将预训练好的LXMERT应用到NLVR视觉推理任务上,将最佳结果从54%提升到了76%。最后,作者通过消融实验证明,新型模型组件和预训练策略都对结果有显著贡献。

图片

LXMERT模型:学习视觉语言跨模态表征。

图片

LXMERT模型的预训练过程。

图片

LXMERT在VQA、GQA、NLVR三个数据集上都取得了最先进的结果。

总结

作者提出了一个基于Transfermer编码器和新型跨模态编码器的模型——LXMERT,用于学习视觉和语言之间的关系,然后利用不同任务,在大规模“图像句子对”数据集上对该模型进行了预训练。作者展示了LXMERT在VQA和GQA两个图像问答数据集上的最先进的结果,并在NLVR视觉推理数据集上将最佳结果提高了22%,表明该模型具有良好的泛化能力。作者还通过消融实验证明了新型模型组件和预训练策略的有效性。

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值