用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

Multimodal representation learning is gaining more and more interest within the deep learning community. While bilinear models provide an interesting framework to find subtle combination of modalities, their number of parameters grows quadratically with the input dimensions, making their practical implementation within classical deep learning pipelines challenging. In this paper, we introduce BLOCK, a new multimodal fusion based on the block-superdiagonal tensor decomposition. It leverages the notion of block-term ranks, which generalizes both concepts of rank and mode ranks for tensors, already used for multimodal fusion. It allows to defifine new ways for optimizing the tradeoff between the expressiveness and complexity of the fusion model, and is able to represent very fifine interactions between modalities while maintaining powerful mono-modal representations.

作者认为在深度学习社区中,多模式表示学习越来越受到关注。 虽然双线性模型提供了一个有意思的框架来查找模态的细微组合,但其参数数量却随着输入维呈二次方增长,这使其在经典深度学习流程中的实际实现具有挑战性。 在本文中,我们介绍了基于块超对角张量分解的新型多峰融合BLOCK。 它利用了块项秩的概念,它概括了已经用于多峰融合的张量的秩和模态秩的概念。 它允许定义新方法来优化融合模型的表达性和复杂性之间的折衷,并能够在保持强大的单模态表示的同时表示模态之间非常精细的交互。

二、网络框架介绍

作者提出的VQA模型基于经典的注意力架构(Fukui et al.2016),并通过作作者提出的合并方案得到了丰富,融合模型如下图所示,使用(Teney等人)提供的自下而上的图像特征,由一组检测到的对象及其表示组成(见Mordan等人Durand等人,关于检测和定位)。为了获得问题的嵌入向量,对单词进行预处理,然后将其输入到经过预先训练的Skip-thought编码器中(Kiros等人.2015),该语言模型的输出用于生成表示整个问题的单个向量,如(Yu et al.2018)。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值