论文阅读：FVQA: Fact-based Visual Question Answering

最新推荐文章于 2021-07-15 16:29:35 发布

是尘埃呀！

最新推荐文章于 2021-07-15 16:29:35 发布

阅读量1.3k

点赞数

分类专栏：知识推理的VQA 文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_45347379/article/details/109263766

版权

本文介绍FVQA系统，该系统利用结构化知识库进行视觉问答，解决了仅依赖离散文本描述的问题。FVQA数据集专注于事实相关问题，模型通过检测图像中的视觉概念，与知识库对齐，构建查询以找到答案。尽管方法有效，但同义词和未提及信息可能导致误差。

摘要由CSDN通过智能技术生成

FVQA: Fact-based Visual Question Answering

上一篇写了含有外部知识的视觉问答相关的较早的一篇论文的阅读笔记：Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources。主要介绍了如何利用含有外部知识的信息对视觉问答进行处理，使用的数据集是DBpedia。缺点在于仅仅从数据集中提取离散的文本描述，忽略了结构化的表达，也就是说，没有办法进行关系推理，没有说明为什么是这个外部知识，从数据库中找到仅仅是相关的描述。

一，数据库

图像的视觉概念是来自Microsoft COCO[2]验证集和ImageNet[3]测试集，并且根据这些图片收集问题，作者还自己建立了一个专门的基于事实的问题收集系统，作者甚至直接舍弃了经典数据集中的是非相关的问题（随机也会达到50%左右的较高的占比），所以，从某种意义上说，该数据集是基于fact去针对性构建的。 而后这一篇文章又讲解了如何建立一个更大的知识数据库（基于三个数据库DBpedia，ConceptNet，WebChild:），值得一提的是WebChild这个数据集被被认为是一种常识性知识的形式，被大多数现有的KBs所忽视，因为它涉及诸如更快、更大和更重等比较关系。（曾经在知乎看到一篇关系推理的名词解释的文章，