MCAN论文笔记——Deep Modular Co-Attention Networks for Visual Question Answering

最新推荐文章于 2024-06-07 09:49:47 发布

sajomanaka

最新推荐文章于 2024-06-07 09:49:47 发布

阅读量1.9k

点赞数 2

文章标签：深度学习 pytorch cv 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzl1299249769/article/details/120401074

版权

MCAN

MCAN论文笔记，仅记录个人阅读感受，如有问题和侵权行为，欢迎指出

Deep Modular Co-Attention Networks for Visual Question Answering, CVPR 2019

Tutorial (rohit497.github.io)

本文受到Transformer启发，运用了两种attention unit：

模型内部交互的self-attention(例如word-to-word or region_to_region)，记为SA
模型之间交互的guided-attention(例如word-to-region)，记为GA

组合使用SA和GA，我们就能获得可以深度级联的不同的MCA模块。使用这种方式构造出来的网络能够很好的学习到Co-Attention的特征，同时，实验发现，利用self-attention对image region进行建模，可以很好的提高object counting的效果，这在传统的VQA任务中是比较难以实现的。

Modular Co-Attention Layer

与Transformer类似，MCA中的两个部分：SA和GA如图所示：

在这里插入图片描述

其计算过程与Transformer中的Multi-head Attention计算一般无二，不再过多赘述：

在这里插入图片描述

在这里插入图片描述

Modular Composition for VQA

基于上述提出的SA和GA attention单元，该模型将其进行组合，形成了三种modular co-attention layer（MCA layer），这些模块均可以进行上述提出的深度级联，即一个MCA layer的输出可以作为下一个MCA layer的输入。

在这里插入图片描述

可以观察到其中© SA(Y)-SGA(X, Y) 的结构就和我们常见的Transformer非常类似

在这里插入图片描述

该论文指出，除了上面三种MCA的组织方式，还可以尝试别的组合方式，但由于篇幅限制，就没有给出实验比较。如GA(X, Y)-GA(Y, X) & SGA(X, Y)-SGA(Y, X)

Modular Co-Attention Networks

在这里插入图片描述

总体结构如图所示，分为三个部分

Question and Image Representation
Deep Co-Attention Learning
Multimodal Fusion and Output Classifier

Question and Image Representations

与之前的很多的任务类似(例如Bottom-up and Top-down)，该模型的图像特征采用利用Faster R-CNN提取的对象特征，问题表示采用GloVe的Embedding和LSTM 进行encoding。不再赘述

Deep Co-Attention Learning

假设有L层MCA layer ，对于每一层MCA layer，有：

在这里插入图片描述

其中 $X^{(0)}=X \; and \; Y^{(0)}=Y$ 作为初始化参数

以SA(Y)-SGA(X, Y) layer 为例，其中有两种组织layer的方式，分别为：Stacking和Encoder-Decoder，如下图所示：

在这里插入图片描述

Multimodal Fusion and Output Classifier

经过Deep Co-Attention Learning，模型得到：

在这里插入图片描述

在这里插入图片描述

分别对于图像和语言都获得了丰富的语义信息，在将二者进行fusion之前，要添加一个attention reduction model。这个模块需要一个两层的MLP：(FC(d)-ReLU-Dropout(0.1)-FC(1))，然后通过此计算出一个注意力分数 $\alpha$ ,有点类似于一个self-attention？表示如下：

在这里插入图片描述

对于x，y都进行如上述操作，然后进行fusion：

在这里插入图片描述

最后通过一个sigmoid函数计算各个类别得分，以BCELoss为Loss function

Experiments

对于不同模块的实验：

在这里插入图片描述

层数对结果的影响：

在这里插入图片描述

attention影响：

在这里插入图片描述

attention 可视化例子：

在这里插入图片描述

参考资料：

用于视觉问答的深度模块化共同注意网络《Deep Modular Co-Attention Networks for Visual Question Answering》_xiashilin的博客-CSDN博客

[1906.10770] Deep Modular Co-Attention Networks for Visual Question Answering (arxiv.org)

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
MCAN论文笔记——Deep Modular Co-Attention Networks for Visual Question Answering

MCANMCAN论文笔记，仅记录个人阅读感受，如有问题和侵权行为，欢迎指出Deep Modular Co-Attention Networks for Visual Question Answering, CVPR 2019Tutorial (rohit497.github.io)本文受到Transformer启发，运用了两种attention unit：模型内部交互的self-attention(例如word-to-word or region_to_region)，记为SA模型之间交互的g
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。