VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networksfor Visual Question Answering

摘要:

视觉问答(VQA)要求系统通过统一非结构化(例如,问题和答案中的上下文;“QA环境”)和结构化(例如,QA环境和场景的知识图谱;“概念图”)多模态知识。现有作品通常通过连接相应的视觉节点和概念节点,将场景图和场景的概念图结合起来,然后结合QA上下文表示进行问答。然而,这些方法只执行从非结构化知识到结构化知识的单向融合,限制了它们在异构知识模式上捕获联合推理的潜力。为了实现更具表达性的推理,我们提出了一种新的VQA模型VQA- gnn,该模型在非结构化和结构化多模态知识之间进行双向融合,以获得统一的知识表示。具体来说,我们通过一个表示QA上下文的超级节点将场景图和概念图相互连接,并引入一种新的多模态GNN技术来执行多模态消息传递,以进行推理,从而减轻模态之间的表示差距。在两个具有挑战性的VQA任务(VCR和GQA)上,我们的方法在VCR (Q-AR)和GQA上分别比强基线VQA方法高出3.2%和4.6%,表明其在执行概念级推理方面的优势。消融研究进一步证明了双向融合和多模态GNN方法在统一非结构化和结构化多模态知识方面的有效性。

1. 介绍

视觉问题回答(VQA)任务的目的是为有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小蜗子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值