ViLBERT:视觉-语言任务预训练模型

最新推荐文章于 2024-07-13 04:30:00 发布

精分天秤座的mystery

最新推荐文章于 2024-07-13 04:30:00 发布

阅读量812

点赞数 1

文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46569877/article/details/121343276

版权

本文介绍了ViLBERT模型，一个基于BERT思想的视觉-语言预训练模型，用于解决跨模态任务。文章讨论了预训练的重要性，详细描述了ViLBERT的双流结构和训练任务，并展示了在多个下游任务如VQA、VCR等中的优秀表现。

摘要由CSDN通过智能技术生成

ViLBERT:视觉-语言任务预训练模型

原文链接：论文原文

什么是预训练？

预训练的提出可以很好的应用迁移学习。预训练的过程如小孩子读书，开始的时候把语文、数学、化学、物理、生物、历史都同时进行学习，脑子中积攒了很多知识。这样当他学习计算机的时候，可以在学习过程中应用到这些知识，但是如果之前没有上过小学，突然开始学习计算机就可能不懂其中有什么道理，这就和预训练的模型一样，预训练模型相当于人类的语言知识，人们通过学习某个东西，之后再代入到具体的任务中，之后就可以得心应手。

为什么要做预训练？

自然语言处理，目的是使计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话、聊天等基本能力，并且可以通过利用知识和常识进行推理，最终可以应用于客服、诊断、法律等重要场景。预训练模型，使自然语言处理由原来的手工调参、依靠ML专家的阶段，进入到可以被用来进行大规模应用、可复制的工业应用的阶段。预训练模型也由单语言拓展到了多语言、多模态任务。预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型，之后的操作是进行微调，以便于用于分类、序列标记、结构预测、序列生成等各项技术，应用于构建摘要、机器翻译、图片检索、视频注释等各种应用。

动机

预训练+迁移学习是深度学习研究中常用的方法，在一个较大的数据集上预训练一个模型，完成下游任务时也可以使用该模型，并且对参数进行微调即可，这样可以大大缩短训练时间。计算机视觉领域通用的预训练模

最低0.47元/天解锁文章

精分天秤座的mystery

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。