上一次更新博客竟然是22年2月,懒狗每日干完活实在懒得动呀。这次记录一篇CVPR2021的论文,<Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning>
论文链接:SOHO
又是一篇关注全局特征的视觉方向的论文
摘要:
我们研究了卷积神经网络(CNN)和Transformer视觉语言预训练模型(VLPT)的联合学习,旨在从数百万个图像-文本对中学习跨模态对齐。当前的SOTA方法提取突出的图像区域,并逐步对齐区域与单词。由于基于区域的视觉特征通常代表图像的一部分,因此现有的视觉语言模型要完全理解成对的自然语言的语义是一项挑战。在本文中,我们提出SOHO(“See Out of tHe bOx”),以整个图像作为输入,并以端到端的方式学习视觉语言表示。SOHO不需要边界框注释,这使得推理的速度比基于区域的方法快10倍。特别是,SOHO学习通过视觉字典(VD)来提取全面而紧凑的图像特征,从而促进跨模态理解。VD被设计为表示相似语义的一致的视觉抽象。它是动态更新,并在我们提出的训练前任务遮蔽的视觉模型(MVM)。
论文框架:
整个框架有种解耦的感觉,预训练模型获取到一个比较好的文本与视觉特征的对齐表示,即提到的视觉字典(VD),将图像分为数个图像块,意味着模型更容易关注到图像的细粒度的区域的信息,逐图像块与VD的聚类中心进行对比,有点prototype learning的意思。值得借鉴和优化的点除了VD以外,对图像块的处理也值得关注。
图像解耦的不彻底,也会造成噪声信息的输入,最近实验有点多,有空了会试着优化一下。。。。
实验结果:
安利一下公众号呀: 起名难住了爱红凯的伽古拉,论文笔记和科研日常一般会发在那(也时常会鸽,因为太懒了)