VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networksfor Visual Question Answering

最新推荐文章于 2025-05-31 16:51:52 发布

小蜗子

最新推荐文章于 2025-05-31 16:51:52 发布

阅读量1k

点赞数 16

分类专栏：多模态知识图谱推理文章标签：知识图谱人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44466434/article/details/143580980

版权

多模态知识图谱推理专栏收录该内容

32 篇文章 ¥19.90 ¥99.00

订阅专栏

摘要:

视觉问答（VQA）要求系统通过统一非结构化(例如，问题和答案中的上下文；“QA环境”)和结构化(例如，QA环境和场景的知识图谱；“概念图”)多模态知识。现有作品通常通过连接相应的视觉节点和概念节点，将场景图和场景的概念图结合起来，然后结合QA上下文表示进行问答。然而，这些方法只执行从非结构化知识到结构化知识的单向融合，限制了它们在异构知识模式上捕获联合推理的潜力。为了实现更具表达性的推理，我们提出了一种新的VQA模型VQA- gnn，该模型在非结构化和结构化多模态知识之间进行双向融合，以获得统一的知识表示。具体来说，我们通过一个表示QA上下文的超级节点将场景图和概念图相互连接，并引入一种新的多模态GNN技术来执行多模态消息传递，以进行推理，从而减轻模态之间的表示差距。在两个具有挑战性的VQA任务（VCR和GQA）上，我们的方法在VCR （Q-AR）和GQA上分别比强基线VQA方法高出3.2%和4.6%，表明其在执行概念级推理方面的优势。消融研究进一步证明了双向融合和多模态GNN方法在统一非结构化和结构化多模态知识方面的有效性。

1. 介绍

视觉问题回答（VQA）任务的目的是为有

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小蜗子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。