【文献阅读】HieCoAttenVQA——分层协同注意力网络VQA(J. Lu等人,NIPS,2016,有代码)

一、背景

文章题目:《Hierarchical Question-Image Co-Attention for Visual Question Answering》

这篇文章比较早,所以就挑一些重要的内容来写。

文章下载地址https://arxiv.org/pdf/1606.00061.pdf

文章引用格式:Jiasen Lu, Jianwei Yang, Dhruv Batra, Devi Parikh. "Hierarchical Question-Image Co-Attention for Visual Question Answering." Conference and Workshop on Neural Information Processing Systems(NIPS). 2016

项目地址https://github.com/jiasenlu/HieCoAttenVQA 

二、文章导读

A number of recent works have proposed attention models for Visual Question Answering (VQA) that generate spatial maps highlighting image regions relevant to answering the question. In this paper, we argue that in addition to modeling “where to look” or visual attention, it is equally important to model “what words to listen to” or question attention. We present a novel co-attention model for VQA that jointly reasons about image and question attention. In addition, our model reasons about the question (and consequently the image via the co-attention mechanism) in a hierarchical fashion via a novel 1-dimensional convolution neural networks (CNN). Our model improves the state-of-the-art on the VQA dataset from 60.3% to 60.5%, and from 61.6% to 63.3% on the COCO-QA dataset. By using ResNet, the performance is further improved to 62.1% for VQA and 65.4% for COCO-QA.

VQA的一些近期工作都提出了注意力模型,她能生成与答案相关的图像区域标记的空间图。本文中,我们指出除了对视觉注意力建模之外,对文本注意力建模也同样重要。我们提出一种新的协同注意力VQA网络,来同时推理图像和问题的注意力。此外,我们的模型对问题的推理是使用了一种分层的形式,即通过1维的卷积网络。我们的模型在VQA数据集上将精度从60.3%提高到了60.5%,在COCO-QA数据集上从61.1%提高到了63.3%。如果使用ResNet,精度还可以进一步提高。

三、文章介绍

尽管近期有很多关于VQA的模型,其中注意力可以指导模型where to look,但是,这些注意力仅仅为视觉注意力,而同样重要的文本注意力却并未考虑,因此,本文从这个角度出发,提出了分层协同注意力VQA网络。本研究主要关注于两种用于VQA的特征:

协同注意力(Co-Attention):我们提出一种机制,叫协同注意力,能够同时处理图像注意力和文本注意力。

问题分层(Question Hierarchy):我们使用一种分层结构来处理文本和图像的注意力。即分为三个层次(1)单词层面(2)短语层面(3)问题层面。在单词层面,使用嵌入矩阵embedding matrix将单词嵌入为向量。短语层面使用1维卷积神经网络来捕捉一元语法,二元语法和三元语法(unigrams, bigrams and trigrams)的信息。在问题层面,我们使用RNN来编码整个问题。

这个问题分层结构和图像注意力交互的效果如下所示:

文章的主要贡献如下:

· We propose a novel co-attention mechanism for VQA that jointly performs question-guided visual attention and image-guided question attention. We explore this mechanism with two strategies, parallel and alternating co-attention, which are described in Sec. 3.3; 提出了协同注意力的VQA网络,能够同时提取问题注意力和图像注意力。

· We propose a hierarchical architecture to represent the question, and consequently construct image-question co-attention maps at 3 different levels: word level, phrase level and question level. These co-attended features are then recursively combined from word level to question level for the final answer prediction; 提出一种分层表示问题的结构

· At the phrase level, we propose a novel convolution-pooling strategy to adaptively select the phrase sizes whose representations are passed to the question level representation; 在短语层面,我们提出了一种卷积池化策略来适应性地的选择短语的大小。

· Finally, we evaluate our proposed model on two large datasets, VQA [2] and COCO-QA [17]. We also perform ablation studies to quantify the roles of different components in our model. 最后我们在VQA和COCO-QA数据集上进行了实验。

1. 相关工作

图像注意力:为了获得图像注意力,一般不会将CNN的最后一个全连接层直接拿出来。现有的工作主要是两种形式,一种是利用文本和问题的交互,另一种是用多次堆叠图像注意力的方式。但是现有的这些工作都是只用到了图像注意力,而并没有使用文本注意力。

语言注意力:尽管VQA中还没有对语言注意力进行探索,但仍有一些工作可以参考。例如Bahdanau et al.【1】等人为了客服长句子难以翻译的问题,提出了RNNSearch。还有文献【2】使用了word-by-word neural attention mechanism来提取文本注意力。也有文献【3】使用two-way attention mechanism来将一对文本映射到同一空间下处理的。

  • 【1】Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. In ICLR, 2015.
  • 【2】Tim Rocktäschel, Edward Grefenstette, Karl Moritz Hermann, Tomáš Koˇcisk`y, and Phil Blunsom. Reasoning about entailment with neural attention. In ICLR, 2016.
  • 【3】Cicero dos Santos, Ming Tan, Bing Xiang, and Bowen Zhou. Attentive pooling networks. arXiv preprint arXiv:1602.03609, 2016.

2. 方法

首先是一些表示,若一个问题Q有T个单词,可以表示为Q = {q1,··· qT},而qt表示第t个单词。q_{t}^wq_{t}^pq_{t}^s分别表示第t个单词的单词嵌入,短语嵌入和问题嵌入。图像特征表示为V = {v1,···vN},其中vn表示第n个空间位置上的图像特征。网络中的权重表示为W。

(1)语言分层

问题分层表示如下图的(a)所示:

首先将问题单词编码为one-hot向量Q = {q1; : : : ; qT},首先先将单词嵌入到向量空间中得到Q^w = {q_1^w ; : : : ; q_T^w}.。然后再计算短语嵌入向量,直接用1维卷积处理单词的嵌入向量。具体来说,是计算每个单词向量与三种滤波形式的内积,即一元,二元和三元。这个卷积过程的输出即:

单词层面的特征,在进行二元和三元滤波的时候,使用0进行填充。之后对前面的卷积结果,在使用最大池化来获得短语特征:

在这一步之后,再使用LSTM来提取问题特征,最后的输出就是最终的特征。

(2)协同注意力

我们提出了两种协同注意力,第一种我们称之为平行协同注意力,即同时生成图像注意力和文本注意力,第二种我们称之为交替协同注意力,即图像注意力和文本注意力交替生成,下图显示了两种注意力的结构:

平行协同注意力(Parallel Co-Attention):平行协同注意力的目的在于同时生成文本注意力和图像注意力。我们将图像和文本进行连接,然后计算两个模态关键位置处的注意力。利用这两个特征,可以获得他们的关系矩阵:

其中Wb是权重矩阵。为了获得图像注意力和文本注意力,我们利用下面的方式取代原有的最大值激活,效果会更好,这是因为我们将关系矩阵也看做一个特征来进行处理的:

关系矩阵C可以将问题特征转化为视觉特征,也可将视觉特征转化为问题特征(通过C的转置)。基于前面的注意力权重,问题注意力向量可以通过其加权求和得到:

交替协同注意力(Alternating Co-Attention):交替协同注意力的目的在于交替生成图像注意力和文本注意力。简要来说,它有三步组成:(1)首先将问题编码为向量q(2)基于问题向量q来获得图像的注意力(3)基于图像的注意力来获得问题的注意力。

若我们定义一个注意力操作x = A(X; g),其中X是输入的特征,g是从另一个特征获得的注意力导向,输出的x是注意力向量。那么这个操作可以表示为:

交替协同注意力网络如上图(b)中所示。首先将X=Q,g设置为0。再其次将X=V,g则为第一步输出的x^。最后,我们再将X=Q,g设置为上一步的输出x^。这样便可以计算出两组注意力。

(3)预测答案编码

与其他过程一样,我们也是将答案生成过程视作一个分类过程,最后我们使用MLP来编码最后的注意力特征,如上上图所示。整个过程计算如下:

3. 实验

(1)数据集

数据集选用的是VQA和COCO-QA

(2)实验结果和分析

对于VQA数据集的实验结果如下:

对于COCO-QA数据集的实验结果如下:

(3)消融实验

这里直接给出消融实验的结果:

(4)量化结果

协同注意力在COCO-QA数据集上的可视化结果如下图所示:

当然也有一些失败的例子:

四、小结

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
co-attention协同注意力机制是一种在多模态任务中应用的机制。它通过同时关注两个不同的输入序列,以便更好地理解它们之间的关系。这种机制有两种实现方式,分别为Parallel co-attention mechanism和Alternating co-attention mechanism。 其中,Parallel co-attention mechanism是将注意力机制应用在两个输入序列之间的每一次互动上。具体来说,它为每个单词在区域上创建一个注意图,并为每个区域在单词上创建一个注意图。这种机制可以循环叠加使用,以进一步增强关注的效果。 Alternating co-attention mechanism则是通过交替地在两个输入序列之间进行注意力计算来实现。它首先计算第一个序列对第二个序列的注意力分布,然后再计算第二个序列对第一个序列的注意力分布。通过交替计算,可以更好地捕捉到两个序列之间的相关性。 总之,co-attention协同注意力机制是一种在多模态任务中应用的机制,它可以帮助我们更好地理解和建模不同输入序列之间的关系。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Co Attention注意力机制实现](https://blog.csdn.net/tszupup/article/details/117292683)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [【论文解析】《 Dense Symmetric Co-Attention for VQA》改进视觉和语言表示的密集对称协同注意力机制的...](https://blog.csdn.net/weixin_44794449/article/details/101753183)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [《Deep Modular Co-Attention Networks for Visual Question Answering》论文笔记](https://download.csdn.net/download/weixin_38621897/14035239)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全部梭哈迟早暴富

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值