双线性注意力网络模型《Bilinear Attention Networks》

本文提出了一种双线性注意力网络(BAN),它使用低秩双线性池化来处理多模式输入,尤其在视觉问答任务中表现优越。BAN考虑了输入通道间的双线性相互作用,有效地利用了视觉-语言信息,并通过残差学习方法处理多个注意力图。实验证明,BAN在VQA 2.0和Flickr30k Entities数据集上超过了先前的方法,达到了新的state-of-the-art。
摘要由CSDN通过智能技术生成

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流, 另附:论文下载地址

一、文献摘要介绍

Attention networks in multimodal learning provide an effificient way to utilize given visual information selectively. However, the computational cost to learn attention distributions for every pair of multimodal input channels is prohibitively expensive. To solve this problem, co-attention builds two separate attention distributions for each modality neglecting the interaction between multimodal inputs. In this paper, we propose bilinear attention networks (BAN) that find bilinear attention distributions to utilize given vision-language information seamlessly. BAN considers bilinear interactions among two groups of input channels, while low-rank bilinear pooling extracts the joint representations for each pair of channels. Furthermore, we propose a variant of multimodal residual networks to exploit eight-attention maps of the BAN effificiently. We quantitatively and qualitatively evaluate our model on visual question answering (VQA 2.0) and Flickr30k Entities datasets, showing that BAN signifificantly outperforms previous methods and achieves new state-of-the-arts on both datasets.

作者认为,多模式学习中的注意力网络提供了一种有效的方法,有选择的利用给定的视觉信息。但是,学习每对多模式输入通道的注意力分布计算的成本过高,为解决这个问题,共同注意为每个模式建立了两个单独的注意力分布,而忽略了多模式输入之间的交互。而在本文中作者提出了一种双线性注意力网络(BAN),它可以找到双线性注意力分布,来无缝地利用给定的视觉-语言信息。BAN考虑两组输入通道之间的双线性相互作用,而低秩双线性池化提取每对通道的联合表示。此外,作者还提出了一种多模式残差网络的变体,以有效的利用BAN的8注意力图。实验表明BAN明显优于以前的方法。

 

二、网络框架介绍

在本论文中,作者将共同注意力的概念扩展为双线性注意力,它考虑了每对多模式通道,例如成对的疑问词和图像区域。如果给定的问题涉及到由多个单词表示的多个视觉概念,则使用每个单词的视觉注意力分布的推理,可以比使用单个压缩注意力分布的推理,更好的利用相关的信息。

在这个背景下,作者提出了双线性注意力网络(BAN),以在低秩双线性池化的基础上使用双线性注意力分布。BAN利用两组输入通道之间的双线性相互作用而低秩双线性池化则提取每对通道的联合表示,此外作者还提出了多模式残差网络(MRN)的变体,有效利用BAN的多个双线性注意力图,下图展示了网络的框架。

由于所提出的用于BAN的残差学习方法利用的是残差求和而不是级联,从而导致参数和性能有效的学习多达8个一瞥的BAN,上图展示了2个BAN的概述,下面进行详细的分析该框架。

2.1 Low-rank bilinear pooling 

首先回顾一下,低秩双线性池化及其在注意力网络中的应用,该网络使用单通道输入(问题向量),将其他多通道(图像特征)组合为单通道的中间表示(注意力特征)。

  1. Low-rank bilinear model

       先前的工作中提出了一种低秩双线性模型,以降低双线性权重矩阵W\, _i 的秩,以给出规律性。为此将 W\, _i 替换为两个较小的矩阵,其中。结果,这种替换使得W\, _i 的秩最大为。对于标量输出 

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值