摘要
找到不同模态之间以及每个模态内的组件连接以获得更好的注意力权重是至关重要的。本文重点关注如何构建输入分层和嵌入结构信息,来改善不同层次组件之间的对齐。
本文提出了视觉问答任务的多粒度对齐架构(MGA-VQA),该架构通过多粒度对齐来学习模态内和模态间的相关性,并通过决策融合模块输出最终结果。
介绍
整个细粒度图像特征和整个自然语言句子的直接融合非常复杂,缺乏可解释性。本文重点研究再没有额外数据的情况下更有效的学习多模态的对齐,为了实现粒度级对齐,通过引入lead graph的概念将图结构信息嵌入到我们的模型中。
贡献:
- 本文提出了一种新的多粒度对齐架构,该架构在三个不同层次上联合学习模态内和模态间的相关关系:概念实体层次、区域名词短语层次和空间句子层次。此外,将结果与决策融合模块集成,以获得最终答案。
- 本文提出了一种联合注意机制,将问题引导的视觉注意和图像引导的问题注意结合起来,提高了解释性。
- 实验在两个具有挑战性的基准数据集GQA和VQA-v2上进行。证明了本文提出的模型在没有额外预训练数据的情况下在两个数据集方法的有效性。此外,本文的方法甚至比预先训练的方法在GQA上取得了更好的结果。
目前存在方法的一些缺陷:
图像缺乏自然语言的语法结构,语言可能存在偏见。
文本特征和细粒度图像特征之间的对齐,其中图像缺乏语言结构和语法规则,导致难以获得良好的结果。 此外,这些工作大多以简单的方式处理问题,而忽略了自然语言领域中的内部逻辑关系。这些问题成为理解多模态特征之间关系的瓶颈。
方法
模型的主要思想:在多模态输入之间相应地对齐多个信息层次,并整合信息以获得最终预测。该模型包含了三种不同粒度层次的对齐。
首先,从输入图像中检测对象,包括它们的名称、相应的属性和关系。在问题方面,检测名词短语、实体和句子语法结构。然后使用lead graph进一步引导对齐学习,并根据上述步骤中提取的结构信息构造它们,其中图中的节点被视为下一步的token特征。这些特征是以下三个粒度对齐Transformers(GA-TRMs)的基本组成部分:概念级和实体级信息、区域级和名词短语级信息以及空间级和句子级信息。最后,三个GA-TRM的输出通过决策融合模块用于预测答案。
VQA中的粒度层次
图像中的粒度信息
给定输入图像(Img),以不同的粒度层次提取三