【文献阅读】MLIN——对视觉区域和问题单词之间的关系进行建模(P. Gao等人,ICCV,2019)

一、背景

文章题目:《Multi-modality Latent Interaction Network for Visual Question Answering》

文章下载地址https://openaccess.thecvf.com/content_ICCV_2019/papers/Gao_Multi-Modality_Latent_Interaction_Network_for_Visual_Question_Answering_ICCV_2019_paper.pdf

文章引用格式:Linjie Li, Zhe Gan, Yu Cheng, Jingjing Liu. "Multi-modality Latent Interaction Network for Visual Question Answering." In The International Conference on Computer Vision (ICCV), 2019

项目地址:暂无

二、文章摘要

Exploiting relationships between visual regions and question words have achieved great success in learning multi-modality features for Visual Question Answering (VQA). However, we argue that existing methods [29] mostly model relations between individual visual regions and words, which are not enough to correctly answer the question. From humans’ perspective, answering a visual question requires understanding the summarizations of visual and language information. In this paper, we proposed the Multi-modality Latent Interaction module (MLI) to tackle this problem. The proposed module learns the cross-modality relationships between latent visual and language summarizations, which summarize visual regions and question into a small number of latent representations to avoid modeling uninformative individual region-word relations. The cross-modality information between the latent summarizations are propagated to fuse valuable information from both modalities and are used to update the visual and word features. Such MLI modules can be stacked for several stages to model complex and latent relations between the two modalities and achieves highly competitive performance on public VQA benchmarks, VQA v2.0 [12] and TDIUC [20]. In addition, we show that the performance of our methods could be significantly improved by combining with pre-trained language model BERT[6].

在VQA的多模态学习中。使用视觉区域和问题单词之间的关系已经得到了足够好的成果。然而,现有的大多方法,对于单个视觉区域和单词之间建模,是不足以正确回答问题的。从人类直觉来说,回答一个视觉问题需要理解视觉和语言信息的概要。这篇文章中,作者提出了一个交互模块MLI来处理这个问题。提出模块学习跨模态的概要关系,概要中总结了视觉区域和问题到一个很小的隐含表示中,从而避免对不提供信息的单个区域和单词之间的关系建模。传递跨模态信息到融合每个模态的敏感信息,并使用跨模态信息来更新视觉和文本特征。MLI模块能够堆叠,以对复杂且隐含的不同模态的关系进行建模,并在现有的VQA数据集上实现了较好的结果。另外,该模型还能够有效提高结合预训练语言模型BERT的性能。

三、文章介绍

VQA目前受到了很多关注,先前的工作主要是设计更好的特征,更好的线性融合方式或者更好的注意力机制。而目前则更多关注于VQA模型的推理。尽管“关系”在很多任务中都有涉及,比如看图说话,VQA,目标检测。而VQA中则主要是构建单词和视觉区域之间的关系,但这不足以正确回答问题。

为了对更复杂的跨模态关系建模,作者提出MLIN(Multi-modality Latent Interaction Network)网络,与现有的VQA方法不同,网络中的MLI模块先将视觉和问题编码到隐概要向量(latent visual and question summarizaiton vectors)中,每一个隐概要向量都能通过视觉或者语言特征加权池化得到。获得每一个模态的概要向量之后,对两个模态的概要向量进行交互,以对语言和视觉之间的关系进行建模。最后使用注意力机制对两个概要向量进行整个,用残差连接的方式预测最终答案。

MLIN模型最终用于VQA 2.0和TDIUC数据集上,该模型都比其他最好的模型要好。提出的MLIN是一种基于注意力的方法,其模型结构简单如下所示:

之前的注意力来整合信息主要可以分为三种形式:(1)协同注意力机制来整合不同模态的信息。(2)使用字典注意力机制的转换器来整合每一个模态的注意力。(3)模态内和模态间注意力DFAF来传递和整合多个模态的信息。MLIN与这些相比,它不仅仅从大规模的视觉-文本中整合特征信息,而且还从小规模的多模态概要向量中整合信息,因此它能捕捉更高级的交互但模型的体量更小。

本文的主要贡献有两个方面:

(1)We propose the MLIN for modelling multi-modality interactions via a small number of multi-modal summarizations, which helps encode the relationships across modalities from global perspectives and avoids capturing too much uninformative region-word relations. 提出了MLIN方法

(2)We carried out extensive ablation studies over each components of MLIN and achieve competitive performance on VQA v2.0 [12] and TDIUC [20] benchmarks. 做了对比试验

1. 相关工作

表示学习(Representation Learning):目前依靠深度学习已经有一系列的成果。

关系推理(Relational Reasoning):关系推理主要是学习视觉区域和单词之间的联系。比较有代表性的方法有基于协同注意力(Co-attention based approaches)的方法;Transformer;和一些简单的关系网络。除了VQA,关系推理还在目标检测中,分类,看图说话等任务中均有应用。

基于注意力的VQA方法(Attention-based Approaches for VQA):很多方法使用注意力机制来整合背景信息。

动态参数预测(Dynamic parameter prediction):DPP是另一种多模态融合的方法。

2. 多模态隐含交互网络MLIN

MLIN网络是由一系列的MLI模块组成。它的主要思想是在隐含概要向量中传播语言和视觉信息,以建立复杂的跨模态交互。

(1)Question and Visual Feature Encoding

参考之前的一些工作,视觉特征提取采用Faster RCNN,文本特征提取采用双向Transformer。特征提取如下图的上班不所示,其中文本的最大长度设置为14:

(2)Modality Summarizations in MLI Module:

概要模块可以看上图的summarization模块,在获得了文本特征和视觉特征之后,作者增加了一个轻量级神经网络,以生成一系列视觉或者文本概要向量,每一个概要向量,都是输入单个特征的线性组合。

(3)Relational Learning on Multi-modality Latent Summarizations

关系隐含概要Relational Latent Summarizations:关系隐含概要与上图中的Interaction部分内容一致,之前获取的隐含概要向量,包含了每一个模块的高级信息。为了推理不同模态之间的关系,作者提出了一个关系推理网络。灵感来自于简单关系网络,首先对两个模态的概要向量做点乘,得到一个三维张量。

关系建模与传播Relational Modeling and Propagation:基于前一步得到的张量,这里再通过两个步骤,来获得两个模态之间的映射关系。第一步,在传播信息之前,为每一个模态的特征建立一个线性变换;第二步是在两个不同特征之间的信息传递,这一步可以视为二次信息,以学习更深层的非线性关系。第一步是建立每个单个问题和视觉之间的关系,第二步是建立每个pair之间的复杂关系。最后将两步的结果叠加就可以获得隐含表示。

特征合并Feature Aggregation:前一步获得的隐含表示,包含了单词特征和视觉特征。特征合并可以使用Transformer模型中的key-query 注意力机制,每一个视觉特征和单词特征都可以通过线性变换转换为128维的query特征。隐含表示中的每一个特征都可以表示为128维的key和value特征。最后利用querry特征更新初始的视觉特征和文本特征。整个过程如上图的Aggregation模块所示。

输入特征和MLI模块中的输出特征是有着相同维度的。然后作者使用了多个MLI模块,最后对输出的视觉特征和文本特征做池化,再跟点积,就可以得到多模态特征融合后的精校正特征。答案预测使用softmax的分类器。

(4)Comparison of Message Passing Complexity

此处作者比较了不同形式下的信息传递的复杂度,包括协同注意力,自注意力,模态内模态间注意力。他们的信息传递形式如图1所示。对于协同注意力,信息传递复杂度为O(2 × M × N),自注意力为O(M × M + N × N),模态内模态间注意力为O((M +N)×(M +N)),而本文提出的MLI为O(k × k × (M + N))。

3. 实验

数据集VQA 2.0和TDIUC。

(1)消融实验

消融实验的结果如下表所示:

(2)和其他模型的比较

在VQA 2.0上的实验结果如下:

在TDIUC数据集上的实验结果如下:

(3)可视化

可视化的结果如下所示:

四、小结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全部梭哈迟早暴富

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值