ViLBERT:视觉-语言任务预训练模型

本文介绍了ViLBERT模型,一个基于BERT思想的视觉-语言预训练模型,用于解决跨模态任务。文章讨论了预训练的重要性,详细描述了ViLBERT的双流结构和训练任务,并展示了在多个下游任务如VQA、VCR等中的优秀表现。
摘要由CSDN通过智能技术生成

ViLBERT:视觉-语言任务预训练模型

原文链接:论文原文

什么是预训练?

预训练的提出可以很好的应用迁移学习。预训练的过程如小孩子读书,开始的时候把语文、数学、化学、物理、生物、历史都同时进行学习,脑子中积攒了很多知识。这样当他学习计算机的时候,可以在学习过程中应用到这些知识,但是如果之前没有上过小学,突然开始学习计算机就可能不懂其中有什么道理,这就和预训练的模型一样,预训练模型相当于人类的语言知识,人们通过学习某个东西,之后再代入到具体的任务中,之后就可以得心应手。

为什么要做预训练?

自然语言处理,目的是使计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话、聊天等基本能力,并且可以通过利用知识和常识进行推理,最终可以应用于客服、诊断、法律等重要场景。预训练模型,使自然语言处理由原来的手工调参、依靠ML专家的阶段,进入到可以被用来进行大规模应用、可复制的工业应用的阶段。预训练模型也由单语言拓展到了多语言、多模态任务。预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型,之后的操作是进行微调,以便于用于分类、序列标记、结构预测、序列生成等各项技术,应用于构建摘要、机器翻译、图片检索、视频注释等各种应用。

动机

预训练+迁移学习是深度学习研究中常用的方法,在一个较大的数据集上预训练一个模型,完成下游任务时也可以使用该模型,并且对参数进行微调即可,这样可以大大缩短训练时间。计算机视觉领域通用的预训练模

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值