2021CVPR计算机视觉最前沿研究领域多模态（VLP和VQA）

最新推荐文章于 2024-05-29 22:15:10 发布

Eric An

最新推荐文章于 2024-05-29 22:15:10 发布

阅读量1.8k

点赞数

分类专栏：《神经科学,认知科学,系统科学》

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yunxinan/article/details/115585799

版权

《神经科学,认知科学,系统科学》专栏收录该内容

17 篇文章 2 订阅

订阅专栏

基于端到端预训练模型的视觉语言表征学习

** （VLP 和VQA本论文个人认为是继文字识别领域后融合计算机视觉与自然语言最大的技术突破）

论文动机
当前大多数文章都是先抽取出图像中的显著性区域，再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分，因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分，现有的视觉语言模型很难完全理解成对自然语言的语义。

论文方法
本文提出SOHO“开箱即看”的概念，将完整的图像为输入，以一种端到端的方式学习视觉语言表达。SOHO不需要边界框标注，这使得推理速度比基于区域的方法快10倍。特别地，SOHO学会了通过视觉词典（VD）来提取全面而紧凑的图像特征，这有助于跨模态理解。

论文结果
大量的实验结果也验证了本文SOHO的有效性。

在这里插入图片描述

用于视觉问答的统一视觉语言预训练模型

论文地址
 论文源码
论文动机
采用两阶段培训方案。第一阶段称为预训练，通过预测蒙蔽词或图像区域来学习语境化的视觉语言表征

论文方法
本文提出了统一的视觉语言预训练（VLP）模型。该模型的统一之处在于：（1）可以针对视觉语言生成（例如，图像描述）或理解（例如，视觉问题）任务进行微调，（2）使用共享的多层transformer网络进行建模编码和解码，这与许多现有方法不同，在现有方法中，使用单独的模型来实现编码器和解码器。在大量的图像-文本对上对统一VLP模型进行了预训练，使用以下两项任务的无监督学习目标：双向和序列对序列（seq2seq）掩码视觉-语言预测。两项任务的区别仅在于预测所基于的上下文。这是通过为共享的transformer网络使用特定的自注意掩码来控制的，下图是作者提出的用于一般视觉语言预训练的统一编码器-解码器模型。

在这里插入图片描述

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
2021CVPR计算机视觉最前沿研究领域多模态（VLP和VQA）

论文地址基于端到端预训练模型的视觉语言表征学习** （VLP 和VQA本论文个人认为是继文字识别领域后融合计算机视觉与自然语言最大的技术突破）论文动机当前大多数文章都是先抽取出图像中的显著性区域，再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分，因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分，现有的视觉语言模型很难完全理解成对自然语言的语义。论文方法本文提出SOHO“开箱即看”的概念，将完整的图像为输入，以一种端到端的方式
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。