ViLBERT:视觉-语言任务预训练模型
原文链接:论文原文
什么是预训练?
预训练的提出可以很好的应用迁移学习。预训练的过程如小孩子读书,开始的时候把语文、数学、化学、物理、生物、历史都同时进行学习,脑子中积攒了很多知识。这样当他学习计算机的时候,可以在学习过程中应用到这些知识,但是如果之前没有上过小学,突然开始学习计算机就可能不懂其中有什么道理,这就和预训练的模型一样,预训练模型相当于人类的语言知识,人们通过学习某个东西,之后再代入到具体的任务中,之后就可以得心应手。
为什么要做预训练?
自然语言处理,目的是使计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话、聊天等基本能力,并且可以通过利用知识和常识进行推理,最终可以应用于客服、诊断、法律等重要场景。预训练模型,使自然语言处理由原来的手工调参、依靠ML专家的阶段,进入到可以被用来进行大规模应用、可复制的工业应用的阶段。预训练模型也由单语言拓展到了多语言、多模态任务。预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型,之后的操作是进行微调,以便于用于分类、序列标记、结构预测、序列生成等各项技术,应用于构建摘要、机器翻译、图片检索、视频注释等各种应用。
动机
预训练+迁移学习是深度学习研究中常用的方法,在一个较大的数据集上预训练一个模型,完成下游任务时也可以使用该模型,并且对参数进行微调即可,这样可以大大缩短训练时间。计算机视觉领域通用的预训练模