用于视觉问答的深度注意神经张量网络模型《Deep Attention Neural Tensor Network for Visual Question Answering》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流, 另附:论文下载地址

一、文献摘要介绍

Visual question answering (VQA) has drawn great attention in cross-modal learning problems, which enables a machine to answer a natural language question given a reference image. Signifificant progress has been made by learning rich embedding features from images and questions by bilinear models, while neglects the key role from answers. In this paper, we propose a novel deep attention neural tensor network (DA-NTN) for visual question answering, which can discover the joint correlations over images, questions and answers with tensor-based representations. First, we model one of the pairwise interaction (e.g., image and question) by bilinear features, which is further encoded with the third dimension (e.g., answer) to be a triplet by bilinear tensor product. Second, we decompose the correlation of difffferent triplets by difffferent answer and question types, and further propose a slice-wise attention module on tensor to select the most discriminative reasoning process for inference. Third, we optimize the proposed DA-NTN by learning a label regression with KL-divergence losses. Such a design enables scalable training and fast convergence over a large number of answer set. We integrate the proposed DA-NTN structure into the state-of-the-art VQA models (e.g., MLB and MUTAN). Extensive experiments demonstrate the superior accuracy than the original MLB and MUTAN models, with 1.98%, 1.70% relative increases on VQA-2.0 dataset, respectively.

作者认为视觉问题解答(VQA)在跨模式学习问题中引起了极大的关注,这使机器能够在给定参考图像的情况下回答自然语言问题。通过利用双线性模型从图像和问题中学习丰富的嵌入特征,已经取得了显着重大进展,但是这些工作忽略了答案中的关键作用。在本文中,我们提出了一种新颖的深度关注神经张量网络(DA-NTN)用于视觉问题回答,它可以发现基于张量表示的图像,问题和答案之间的联合相关性。首先,我们通过双线性特征对配对交互(例如,图像和问题)中的一个建模,并进一步用三维(例如,答案)将其编码为双线性张量积的三元组。其次,我们通过不同的答案和问题类型分解不同的三元组的相关性,并进一步在张量上提出一个分段注意模块,以选择最具判别力的推理过程进行推理。第三,我们通过学习带有KL散度损失的标签回归来优化建议的DA-NTN。这样的设计使得可扩展的训练和在大量答案集上的快速收敛成为可能。我们将提出的DA-NTN结构集成到最新的VQA模型(例如MLB和MUTAN)中。大量实验证明,与原始MLB和MUTAN模型相比,其准确性更高,在VQA-2.0数据集上,相对精度分别提高了1.98%和1.70%。

二、网络框架介绍

下图是作者提出的网络框架。图像、问题和所有候选答案都被联合输入到这个框架中。红色框中的结构是生成问题表示\large v_q和图像与问题特征向量\large v_q_I融合的基础模型。两个蓝框中的结构是我们提出的“深度注意神经张量网络”。蓝框称为神经张量网络,用于度量图像-问题-答案三元组之间的相关性,张量可以表示三元组之间的隐式关系。名为“注意模块”的蓝框用于推理,根据三元组之间隐含的关系类型,对三元组进行自适应推理。

作者提出的模型,将开放式VQA视为回归任务,即提出的方法目标是测量图像 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值