视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

最新推荐文章于 2024-03-18 20:09:45 发布

Tiám青年

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量1.2k

点赞数

分类专栏： VQA 计算机视觉

本文链接：https://blog.csdn.net/xiasli123/article/details/103926020

版权

本文深入分析了两种视觉问答（VQA）方法——多模态分解双线性池（MFB）和双线性注意力网络（BAN），发现它们在计数和多对象问题上表现不佳。研究发现，特征敏感性、注意力分布不准确和计数问题处理是当前VQA系统的局限性。这些观察结果将促进未来更有效VQA方法的设计。

摘要由CSDN通过智能技术生成

这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。

一、文献摘要介绍

Attention mechanisms have been widely used in Visual Question Answering (VQA) solutions due to their capacity to model deep cross-domain interactions. Analyzing attention maps offers us a perspective to find out limitations of current VQA systems and an opportunity to further improve them. In this paper, we select two state-of-the-art VQA approaches with attention mechanisms to study their robustness and disadvantages by visualizing and analyzing their estimated attention maps. We find that both methods are sensitive to features, and simultaneously, they perform badly for counting and multi-object related questions. We believe that the findings and analytical method will help researchers identify crucial challenges on the way to improve their own VQA systems.

作者认为由于注意力机制具有建模深层跨区域交互的能力，所以它得到了广泛的应用，分析注意力图为我们提供了一个观点，以找出当前VQA的局限性，并有机会进一步改进它们。在本文中，作者选择两种具有注意力机制的最新VQA方法，通过可视化和分析其估计的注意力图来研究其健壮性和缺点。作者发现这两种方法都对特征十分敏感，同时，它们在计数和与多对象相关的问题上表现不佳。这些发现和分析方法将有助于研究人员确定改进自身VQA系统的关键挑战。

二、引言

视觉问答（VQA）在计算机视觉和自然语言处理社区中吸引了越来越多的关注。 VQA的目标是根据任何给定图像的信息来回答问题。随着深度学习见证了人工智能领域的一系列卓越成就，VQA在过去几年中也取得了巨大进步，产生了多个基准数据集，例如VQA 2.0 ，CLEVR 和视觉基因组和大量方法，例如MFB和BAN。

通常将VQA作为一个多分类任务，以不同的答案作为候选类别。目前主流的方法首先是利用传统的神经网络和递归神经网络提取图像和问题表示。然后，采用许多融合方法，如早期融合[18]和双线性池[15，6，1，5]来融合问题和图像特征。此外，注意力机制正在发挥越来越重要的作用，因为这种机制鼓励深度跨领域的相互作用，而不引入实质性的参数。对VQA系统的注意力机制主要有两个分支：单注意和共同注意。单一注意只是考虑问题引导的图像注意力。相比之下，共同注意还考虑了图像引导的问题注意，共同建模多模态关系。

虽然已经取得了很大的进展，但很少有人对不同注意力机制的影响进行深入的分析。在本文中，我们深入研究了两种最先进的方法：多模态分解双线性池（MFB）和双线性注意力网络（BAN）发现其固有的局限性。这两种方法都采用了流行的双线性池进行多模态融合。然而，MFB只执行问题引导的视觉注意力（单注意力），而BAN将共同注意力扩展到双线性注意力，以实现更多的图像和语言交互。作者在VQA2.0数据集上进行了所有的实验，因为其答案分布比VQA1.0和VisualGenome数据集更均衡。此外，与充满合成图像的CLEVR数据集相比，它涵盖了更多的真实世界对象的关系。为了更深入地理解这两种方法，我们建议直接深入研究它们的注意力图。观察估计的注意力图是否与实际答案有关，可以反映相应方法的稳健性和局限性。

总之，在对这两种方法进行彻底的实验之后，我们提出了三个关键的观察࿱

最低0.47元/天解锁文章

Tiám青年

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

目录一、文献摘要介绍二、引言三、两个模型介绍四、两个模型的深度研究五、总结这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。一、文献摘要介绍Attention mechanisms have been widely used in Visual Question Answering (VQA) solutions...
复制链接

扫一扫

专栏目录