FVQA: Fact-based Visual Question Answering
上一篇写了含有外部知识的视觉问答相关的较早的一篇论文的阅读笔记:Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources。主要介绍了如何利用含有外部知识的信息对视觉问答进行处理,使用的数据集是DBpedia。缺点在于仅仅从数据集中提取离散的文本描述,忽略了结构化的表达,也就是说,没有办法进行关系推理,没有说明为什么是这个外部知识,从数据库中找到仅仅是相关的描述。
一,数据库
图像的视觉概念是来自Microsoft COCO[2]验证集和ImageNet[3]测试集,并且根据这些图片收集问题,作者还自己建立了一个专门的基于事实的问题收集系统,作者甚至直接舍弃了经典数据集中的是非相关的问题(随机也会达到50%左右的较高的占比),所以,从某种意义上说,该数据集是基于fact去针对性构建的。 而后这一篇文章又讲解了如何建立一个更大的知识数据库(基于三个数据库DBpedia,ConceptNet,WebChild:), 值得一提的是WebChild这个数据集被被认为是一种常识性知识的形式,被大多数现有的KBs所忽视,因为它涉及诸如更快、更大和更重等比较关系。(曾经在知乎看到一篇关系推理的名词解释的文章,