自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

最新推荐文章于 2023-05-22 14:08:18 发布

Tiám青年

最新推荐文章于 2023-05-22 14:08:18 发布

阅读量7.5k

点赞数 7

分类专栏： VQA 计算机视觉

本文链接：https://blog.csdn.net/xiasli123/article/details/103029511

版权

本文提出了一种结合自下而上和自上而下的注意力机制，用于图像描述和视觉问答任务。该模型基于Faster R-CNN实现对象级和显著区域的注意力，取得图像描述和VQA任务的最新最优成绩。实验显示，该方法在多个指标上优于传统方法，提高了注意力权重的解释性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文有点长，请耐心阅读，定会有收货。如有不足，欢迎交流，另附:论文下载地址

一、文献摘要介绍

Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fifine-grained analysis and even multiple steps of reasoning. In this work, we propose a combined bottom-up and top-down attention mechanism that enables attention to be calculated at the level of objects and other salient image regions. This is the natural basis for attention to be considered. Within our approach, the bottom-up mechanism (based on Faster R-CNN) proposes image regions, each with an associated feature vector, while the top-down mechanism determines feature weightings. Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU-4 scores of 117.9, 21.5 and 36.9, respectively. Demonstrating the broad applicability of the method, applying the same approach to VQA we obtain fifirst place in the 2017 VQA Challenge.

作者认为自上而下的视觉注意力机制已经广泛的应用于图像描述和视觉问答中，以通过细粒度分析，甚至推理多个步骤实现对图像的更深入理解。因此作者提出了一种自下而上和自上而下的组合注意力机制，使注意力可以在对象和其他显著图像区域的水平上进行计算。自下而上的机制(基于 Faster R-CNN)提出了图像区域，每个区域都具有关联的特征向量，而自上而下的机制决定了特征权重，作者还在2017年VQA挑战赛中获得了第一名，下面就让我们来剖析一下该框架吧。

二、网络框架介绍

2.1Bottom-Up Attention Model

给定一个图像 $I$ ，我们的图像描述模型和 $VQA$ 模型都将一组可变大小的 $k$ 个图像特征作为输入，以使每个图像特征都进行编码图像的主要区域。空间特征 $V$ 可以定义自下而上的注意力模型的输出，也可以按照标准实践定义为 $CNN$ 的空间输出层。

空间特征 $V$ 的定义是通用的。但是，在这项工作中，作者根据边界框定义了空间区域，并使用Faster R-CNN实现了自下而上的注意力模型，Faster R-CNN是一种对象检测模型，旨在识别属于某些类的对象实例，并使用边界框定位它们。其他区域推荐网络也可以作为一种关注机制进行培训。

Faster R-CNN检测对象分两个阶段。第一个阶段，称为区域推荐网络（Region Proposal Network，RPN），用来预测对象推荐。一个小网络在CNN的中间特征上滑动(作用是把每个滑动窗口映射到一个低维特征)。在每个空间位置，该网络都会为多个比例和纵横比的锚框预测与类无关的客观评分和边界框优化。使用贪婪非最大抑制和交并比（IoU）阈值，将顶部的推荐作为第二阶段的输入。在第二阶段，使用兴趣区域（RoI）合并为每个Box建议提取一个小的特征图（例如14×14）。然后将这些特征图一起批处理，作为对CNN最终层的输入。该模型的最终输出包括在类别标签上的softmax分布以及每个框提议的特定于类别的边界框优化。

在这项工作中，作者结合使用了Faster R-CNN和ResNet-101CNN。为了生成用于图像描述或VQA图像特征 $\large V$ 的输出集，我们获取模型的最终输出，并使用IoU阈值对每个对象类别执行非最大抑制。对于每个选定区域