Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering

论文链接:[Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering]
动态融合模内和模间注意力流用于视觉问题回答

学习多模态特征的有效融合是视觉问题回答的核心。本文提出了一种动态融合多模态特征和模态内、模态间信息流的新方法,使信息在视觉和语言模态间交替传递。它能较好地捕捉语言和视觉域之间的高级交互,从而显著提高视觉回答问题的性能。研究还表明,基于其他模态的动态内模注意流可以动态地调节目标模态的内模注意,这是多模特征融合的关键。在VQA 2.0数据集上的实验评价表明,该方法达到了最先进的VQA性能。广泛的消融研究进行了全面的分析所提出的方法。

1介绍

VQA(Visual Question Answering)旨在自动回答与给定图像内容相关的自然语言问题。它在实践中有着广泛的应用,如辅助盲人[12]、幼儿教育等,因此成为近年来的研究热点。视觉回答问题(VQA)的性能在最近几年有了很大的提高,这得益于三种工作。首先,更好的视觉和语言特征表示是提高VQA性能的核心。从VGG [35], ResNet [13], FishNet[36]到最近的自下而上和自上而下特性[1]的特性学习能力显著提高了VQA的性能。其次,不同类型的注意机制[40]可以自适应地选择重要特征,有助于深度学习获得更好的识别精度。第三,提出了更好的多模态融合方法,如双线性融合[9]、MCB[7]和MUTAN[4],以更好地捕捉语言与视觉特征之间的高层交互。

1.1 介绍各种融合模型的发展

尽管被广泛研究,大多数现有的VQA方法关注于学习视觉和语言特征之间的模态间关系。双线性特征融合方法主要通过特征的外积来获取语言和视觉模式之间的高阶关系。共同注意[39,28,24]或基于双线性注意的方法[19]学习词区对之间的形态间关系,以识别问题回答的关键对。另一方面,也有侧重于学习模内关系的计算机视觉和自然语言处理算法。Hu等[14]提出探索模内对象-对象关系,以提高目标检测精度。Yao等人[42,26]对模内对象-对象关系进行建模,以提高图像字幕的性能。在最近提出的用于自然语言处理的BERT算法[6]中,采用自注意机制对模内词关系进行建模,以学习最先进的词嵌入。然而,模间和模内的关系从来没有在一个统一的框架内共同研究解决这个问题。我们认为,每个模态内部的模态关系是对模态间关系的补充,而模态间关系被现有的VQA方法所忽略。例如,对于图像modality,每个图像区域不仅要从问题中的关联词/短语中获取信息,还要从相关图像区域中获取信息来推断问题的答案。对于问题形态,可以通过推理其他词来更好地理解问题。这样的情况促使我们提出一个统一的框架,为模间和模内信息流建模。

1.2 介绍提出的DFAF模型

为了克服这一局限性,我们提出了一种新的动态融合模式内和模式间注意力流的方法DFAF框架的多模态特征融合,以准确回答视觉问题。总体图如图1所示。我们的DFAF框架集成了跨模式的自我注意和跨模式的共注意机制,以实现图像和语言模型之间有效信息的流动。在给定深度神经网络编码的视觉特征和问题特征后,DFAF框架首先生成模间注意流(intermodality attention flow, InterMAF),在图像和语言之间传递信息。在InterMAF模块中,视觉和语言特征生成联合模态共注意力矩阵。每个视觉区域会根据联合模态共注意矩阵选择问题特征,反之亦然。InterMAF模块根据来自另一模态的注意力加权信息流,融合和更新每个图像区域和每个单词的特征。在InterMAF模块之后,DFAF计算每个模态内传递信息流的动态内模态注意流(DyIntraMAF),以捕获复杂的内模态关系。视觉区域和句子词汇在同一模态下产生自注意力权重,并在同一模型下从其他实例中聚合注意力权重信息。更重要的是,虽然信息仅在相同的模态中传播,但考虑并使用其他模态的信息来调节模态内的注意力权重和信息流。通过这样的操作,每个模态内的注意流动态地依赖于其他模态,这是与现有的在目标检测[14]和图像字幕[42]上的模态内消息传递方法的关键区别。DyIntraMAF被证明比仅使用内部信息进行内部模态信息流的变体要好得多,这是该框架成功的关键。我们也可以使用InterMA和DyIntraMA模块来创建DFAF的基本块。显示了多个DFAF块堆栈以进一步提高VQA性能。

1.3 介绍DFAF模型创新点

我们的贡献可以概括为三方面。(1)提出了一种基于模内和模间注意流(DFAF)框架的多模融合新方法。这样的框架首次将模间和动态模内信息流集成到一个统一的框架中,以解决VQA任务。(2)提出动态内模态注意流(DyIntraMAF)模块,用于动态地生成各模态内的有效注意流,动态地依赖于其他模态的信息。这是我们提出的框架的核心创新之一。(3)进行了广泛的实验和消融研究,以检验所提议的DFAF框架的有效性,其中最先进的VQA性能是由我们所提议的DFAF框架实现的。

2 相关工作

VQA的表示学习。最近VQA性能的提升是由于深度学习的成功。在VQA方法的早期,常用的是VGG[35]网络。随着ResNet[13]的引入,VQA社区转向ResNet网络,它比VGG有很大的优势。最近,由更快的RCNN[33]衍生而来的自底向上和自顶向下的网络[1]被证明适用于VQA和图像字幕任务。特征学习是开发VQA算法的重要组成部分。

用于VQA的双线性融合。解决VQA需要对视觉内容和语言内容以及两者之间的关系进行了解。在早期的VQA方法中,在视觉和语言之间使用简单的连接或element-wise乘法[45]来实现跨模态特征融合。为了捕获两种模式之间的高层交互,提出了双线性融合[9],采用双线性池化融合两种模式的特征。为了克服双线性融合计算成本高的局限性,提出了许多近似融合方法,包括MCB[7]、MLB[20]和MUTAN[4],这些方法在参数少得多的情况下,表现出比双线性融合[9]更好的性能。

基于自我关注的方法。深度学习中的注意机制试图模仿人类视觉的工作方式。通过自动忽略数据中不相关的信息,神经网络可以选择性地关注重要的特征。这种方法在自然语言处理(NLP) [3],图像字幕[40]和VQA [46]中取得了巨大的成功。注意力机制有许多变体。我们的方法主要是基于自我关注和共同关注的方法。自我关注机制[37]将特征转换为查询、关键和价值特征。然后通过查询和关键特征的内积计算不同特征之间的关注矩阵。在获得注意力矩阵之后,特征被聚集为原始特征的注意力加权总和。在自我注意机制的激励下,许多视觉任务的表现显著提高。非局部神经网络[38]提出了一种非局部模块,用于聚集一个视频中不同帧之间的信息,并实现了视频分类的最新性能。关系网络通过采用自我关注机制来学习[14]对象建议之间的关系。in-place模块可以提高更快的RCNN [33]和非最大抑制(NMS)性能。

基于共同注意力的方法。基于共同注意的[39,28]视觉和语言方法模拟了两种模式之间的相互作用。对于每个词,每个图像区域特征根据共同关注权值聚合到该词。共同注意机制已被广泛应用于自然语言处理和VQA任务。在[29]中,提出了稠密对称共注意(DCN)。它在VQAv1和VQAv2数据集上实现了最先进的性能,而没有使用任何自下而上和自上而下的功能。DCN的成功是由于对称共同注意的密集连接[16]。

语言和视觉任务的其他工作。除了上述方法之外,还提出了许多融合跨模态语言和视觉特征的算法。动态参数预测[30]和问题导向混合卷积[8]利用动态预测参数进行特征融合。适应性注意力[27]引入了一种视觉感官,可以在图像字幕期间跳过注意力。结构化注意力[21]采用了注意力地图上的MRF模型,以更好地模拟更好的空间注意力分布。提出局部加权可变形邻居[18]来预测偏移和调制权重。

3 Dynamic Fusion with Intra- and Inter-modality Attention Flow for VQA

3.1 综述

提出的方法由一系列DFAF模块组成。整个流程如图1所示,两个模态之间的视觉和语言特征首先通过共同注意机制进行加权,并通过所提出的模态间注意流(InterMAF)模块在每个图像区域和每个单词的模态之间进行聚合,该模块学习图像区域和问题单词之间的跨模态交互。在模态间模块之后,为了对每个模态内的关系进行建模,即单词到单词的关系和区域到区域的关系,采用了动态模态内注意流模块。它对每个模态内的单词和区域进行加权,并再次将它们的特征聚合到单词和区域中,这可以被视为每个模态内的传递信息流。重要的是,在我们提出的内模态模块中,注意力流是动态地依赖于来自另一个模态的信息,这是与现有的基于自我注意的方法相比的一个关键区别。这种中间模块和内部模块可以多次堆叠,以迭代地在单词和区域之间传递信息流,从而为视觉问题回答建模潜在的对齐。

在这里插入图片描述

3.2 基于视觉和语言特征提取

为了获得基本的视觉和语言特征,我们从自下而上和自上而下的注意力模型中提取图像特征[1]。视觉区域特征是从视觉基因组数据集上预处理的更快的RCNN [33]模型获得的。对于每幅图像,我们提取100个区域建议及其相关的区域特征。给定输入图像I,所获得的区域视觉特征被表示为 R ∈ R 14 × 2048 R ∈ R^ {14×2048} RR14×2048 ,其中该区域 i t h i^ {th} ith 特征被表示为 r i ∈ R 2048 r_i∈R^ {2048} riR2048 ,并且总共 μ \mu μ 有对象区域。物体的视觉特征在训练过程中是固定的。
  
   我们采用Glove词嵌入[32]作为门控循环单元(GRU) [5]的输入,用于编码问题单词特征。给定问题Q,我们从GRU获得单词级特征 E ∈ R 14 × 2048 E∈ R^ {14×2048} ER14×2048,其中 j t h j^ {th} jth特征被表示为 e i ∈ R 2048 e_i∈R^ {2048} eiR2048,并且所有问题被填充和截断为相同的长度14。获得的视觉对象区域特征 R 和问题特征 E 可以表示为:
R = R C N N ( I ; θ R C N N ) , E = G R U ( Q ; θ G R U ) . R = RCNN(I; θ _ {RCNN}), E = GRU(Q;θ_ {GRU}). R=RCNN(

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值