用于视觉问答的相互注意融合模型《Reciprocal Attention Fusion for Visual Question Answering》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

Existing attention mechanisms either attend to local image-grid or object level features for Visual Question Answering (VQA). Motivated by the observation that questions can relate to both object instances and their parts, we propose a novel attention mechanism that jointly considers reciprocal relationships between the two levels of visual details. The bottom-up attention thus generated is further coalesced with the top-down information to only focus on the scene elements that are most relevant to a given question. Our design hierarchically fuses multi-modal information i.e., language, object- and grid-level features, through an efficient tensor decomposition scheme. The proposed model improves the state-of-the-art single model performances from 67.9% to 68.2% on VQAv1 and from 65.7% to 67.4% on VQAv2, demonstrating a significant boost.

作者认为现有的视觉问答系统(VQA)的注意力机制要么涉及局部图像网格,要么涉及对象级特征。通过观察发现,问题可以与对象实例及其部分相关,作者提出了一种新颖的注意力机制,该机制共同考虑了两个视觉细节级别之间的相互关系。这样产生的自下而上的注意力将与自上而下的信息进一步结合,以仅关注与给定问题最相关的场景元素。 我们的设计通过有效的张量分解方案在层次上融合了多模态信息,即语言,对象和网格级别的特征。 提出的模型将最新的单模型性能从VQAv1的67.9%提高到68.2%,将VQAv2的性能从65.7%提高到67.4%,显示出明显的提升,图1展示将注意力应用于相互的视觉特征,允许VQA模型获得回答给定视觉问题所需的最相关信息。

二、网络框架介绍

         VQA任务要求AI代理在给出视觉(即图像,视频)和自然语言输入(即问题,解析)的情况下生成自然语言响应。我们将VQA任务表述为分类任务,其中模型从给定图像\large (v)和问题\large (q)对的所有可能答案中预测正确答案

其中 \large \theta 表示用于从所有可能答案 \large A 的集合中预测最佳答案的参数集。

我们提出的执行VQA任务的体系结构如图2所示。

我们提出的体系结构的主要亮点包括一个层次注意机制,该机制侧重于场景细节的互补层次,即图像区域的网格和对象推荐。然后将相关的共有特征融合在一起进行最终预测。我们将我们的模型命名为“交互注意融合”,因为它同时关注两个互补的场景表示,即图像网格和对象建议推荐。下面进行详细介绍。

2.1. Joint Feature Embedding

        令 \large V 为从图像中提取的所有视觉特征的集合,令 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值