用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

The recently emerged research of Visual Question Answering (VQA) has become a hot topic in computer vision. A key solution to VQA exists in how to fuse multimodal features extracted from image and question. In this paper, we show that combining visual relationship and attention together achieves more fine-grained feature fusion. Specifically, we design an effective and efficient module to reason complex relationship between visual objects. In addition, a bilinear attention module is learned for question guided attention on visual objects, which allows us to obtain more discriminative visual features. Given an image and a question in natural language, our VQA model learns visual relational reasoning network and attention network in parallel to fuse fifine-grained textual and visual features, so that answers can be predicted accurately. Experimental results show that our approach achieves new state-of-the-art performance of single model on both VQA 1.0 and VQA 2.0 datasets.

最近出现的视觉问题解答(VQA)研究已经成为计算机视觉中的热门话题。 VQA的关键解决方案在于如何融合从图像和问题中提取的多峰特征。 在本文中,表明将视觉关系和注意力结合在一起可以实现更细粒度的特征融合。 具体来说,作者设计了一个有效的模块来推理视觉对象之间的复杂关系。 另外,学习了一个双线性注意力模块,用于对视觉对象进行问题指导的注意力,这使我们能够获得更具区分性的视觉特征。 给定自然语言中的图像和问题,作者的VQA模型并行学习视觉关系推理网络和注意力网络,以融合细粒度的文本和视觉特征,从而可以准确地预测答案。 实验结果表明,该方法在VQA 1.0和VQA 2.0数据集上均实现了单个模型的最新性能。

二、网络框架介绍

如图2所示,我们的完整VQA模型以问题、由自底向上注意生成的检测框为输入,通过视觉关系推理和视觉注意获得细粒度特征,从而推断出正确答案,模型由五个主要部分组成:(1)图像建模。 输入图像由自下而上的注意处理,该方法基于Faster R-CNN框架中的ResNet CNN,获得了K个图像区域的视觉特征。 (2)问题嵌入。输入问题被修剪为最多14个单词,每个单词都被转换成一个带有单词嵌入的向量表示。 然后将这些向量传递到门控循环单元(GRU),使用最终的隐藏状态作为问题的表示。(3)视觉关系推理模块,用于对检测到的图像区域推荐之间的关系进行推理,以获得关系视觉特征。(4)视觉注意模块在问题指导下对检测到的图像区域推荐分配权重,以获取视觉特征。 (5)最后,学习由深度神经网络组成的多标签分类器,以推断出正确的答案。 视觉关系推理模块和视觉注意模块是即插即用的,我们可以通过将它们并行组合来获得细粒度的特征融合,下面进行详细分析。

2.1. Image modelling

        采用Faster R-CNN框架在输入图像中获取对象检测框。 然后,对每个对象区域执行非最大抑制,并选择排名靠前的K个检测框(通常为𝐾= 36)。 对于每个选定区域推荐 i ,\large v_i 被定义为该区域的平均池卷积特征,因此输入图像最终表示为

Faster R-CNN以这种方式使用,是一种“硬”注意机制,因为可以从大量可能的配置中选择相对较少的图像区域。此外,还记录了选定图像区域的缩放几何特征,记为,其中分别是所选区域 \large i 的坐标,宽度和高度。\large w 和 \large h 分别是输入图像的宽度和高度,这些缩放的几何特征将被输入到我们的视觉关系推理模块中。

2.2. Question embedding

        首先将每个输入问题

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值