论文阅读
文章平均质量分 81
SCUT_JQ
这个作者很懒,什么都没留下…
展开
-
论文笔记:VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning
视觉词汇预训练(visual vocabulary pre-training,简称VIVO)技术,即通过弱监督学习方法对图像描述模型进行预训练,其中包括两个阶段:预训练和微调推断。基于大型Transformer神经网络,VIVO 在没有文本标签的数据集Open Images上对文本和图像的多模态进行预训练,令模型学会识别图像中的常见物体和生物并标记它们,并建立起将文本和图片联系起来的视觉词表。视觉图表就是一个图像和文本的联合特征空间,语义相近的词会聚类在一起,例如金毛和牧羊犬、手风琴和乐器等。建好词表后原创 2021-11-30 19:29:59 · 3394 阅读 · 0 评论 -
论文笔记:Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
在图像-文本对上学习跨模态表示的大规模预训练方法在视觉-语言任务中越来越流行,现有方法简单地将图像区域特征和文本特征连接起来作为输入,并借助自注意力机制以蛮力方式学习图像区域和文本之间的语义对齐,由于图像区域和文本之间缺乏明确的对齐信息,导致对齐建模属于弱监督学习任务。在本文中,提出了一种新的学习方法 Oscar,它使用在图像中检测到的对象标签作为锚点,来对齐共享语义空间中的图像和语言模态,大大简化了对齐学习,模型的目标是观察到图像中可以通过现代目标检测器准确检测到的显着对象,并且这些对象经常在配对文本中原创 2021-11-29 20:02:55 · 2112 阅读 · 0 评论 -
论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
论文链接在该论文中,自下而上的机制(基于 Faster R-CNN)提出了图像区域,每个区域都有一个相关的特征向量,而自上而下的机制决定了这些特征向量的权重3.1 节,描述了实现自下而上注意模型的方法;3.2 节,概述了图像字幕模型的架构;3.3 节,概述了 VQA 模型。对于自上而下的注意力组件,两个模型(字幕模型和VQA模型)都使用简单的一次性注意力机制,而不是最近模型都使用的更复杂的方案,例如堆叠、多头或双向注意力 [47, 16, 20, 28 ] 等。自下而上的注意力模型本文根据边界框定义原创 2021-11-28 17:19:24 · 1000 阅读 · 0 评论