论文阅读:FVQA: Fact-based Visual Question Answering

本文介绍FVQA系统,该系统利用结构化知识库进行视觉问答,解决了仅依赖离散文本描述的问题。FVQA数据集专注于事实相关问题,模型通过检测图像中的视觉概念,与知识库对齐,构建查询以找到答案。尽管方法有效,但同义词和未提及信息可能导致误差。
摘要由CSDN通过智能技术生成

FVQA: Fact-based Visual Question Answering

上一篇写了含有外部知识的视觉问答相关的较早的一篇论文的阅读笔记:Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources。主要介绍了如何利用含有外部知识的信息对视觉问答进行处理,使用的数据集是DBpedia。缺点在于仅仅从数据集中提取离散的文本描述,忽略了结构化的表达,也就是说,没有办法进行关系推理,没有说明为什么是这个外部知识,从数据库中找到仅仅是相关的描述。

一,数据库

图像的视觉概念是来自Microsoft COCO[2]验证集和ImageNet[3]测试集,并且根据这些图片收集问题,作者还自己建立了一个专门的基于事实的问题收集系统,作者甚至直接舍弃了经典数据集中的是非相关的问题(随机也会达到50%左右的较高的占比),所以,从某种意义上说,该数据集是基于fact去针对性构建的。 而后这一篇文章又讲解了如何建立一个更大的知识数据库(基于三个数据库DBpedia,ConceptNet,WebChild:), 值得一提的是WebChild这个数据集被被认为是一种常识性知识的形式,被大多数现有的KBs所忽视,因为它涉及诸如更快、更大和更重等比较关系。(曾经在知乎看到一篇关系推理的名词解释的文章,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值