摘要:
视觉问答(VQA)要求系统通过统一非结构化(例如,问题和答案中的上下文;“QA环境”)和结构化(例如,QA环境和场景的知识图谱;“概念图”)多模态知识。现有作品通常通过连接相应的视觉节点和概念节点,将场景图和场景的概念图结合起来,然后结合QA上下文表示进行问答。然而,这些方法只执行从非结构化知识到结构化知识的单向融合,限制了它们在异构知识模式上捕获联合推理的潜力。为了实现更具表达性的推理,我们提出了一种新的VQA模型VQA- gnn,该模型在非结构化和结构化多模态知识之间进行双向融合,以获得统一的知识表示。具体来说,我们通过一个表示QA上下文的超级节点将场景图和概念图相互连接,并引入一种新的多模态GNN技术来执行多模态消息传递,以进行推理,从而减轻模态之间的表示差距。在两个具有挑战性的VQA任务(VCR和GQA)上,我们的方法在VCR (Q-AR)和GQA上分别比强基线VQA方法高出3.2%和4.6%,表明其在执行概念级推理方面的优势。消融研究进一步证明了双向融合和多模态GNN方法在统一非结构化和结构化多模态知识方面的有效性。
1. 介绍
视觉问题回答(VQA)任务的目的是为有