VQA数据集及评价方法介绍

  VQA(Visual Question Answering)是一项涉及到计算机视觉和自然语言处理的视觉任务,简单介绍下当前VQA所使用的数据集:
    1. DQAUAR
    DAQUAR(The DAtaset for QUestion Answering on Real-world images)是最早提出的VQA数据集,也是最小的VQA数据集。DAQUAR中的图像来自于NYU-Depth v2 数据集,都是室内场景的RGBD图像,795张用于训练,654张用于测试。DAQUAR中的question/answer pairs主要有两种类型:自动生成的和人工标注的。
    2. COCO-QA
    COCO-QA数据集中的图像来自于MS-COCO数据集,主要包括123287张图像,其中72738张用于训练,38948用于测试,并且每张图像都有一个question/answer pair,每个answer都是一个单词。这些question/answer pair都是根据MS-COCO中的图像描述自动生成的。根据Answer可以将Question分为四类:object、number、color 和location。由于问题都是自动生成的,所以存在一定的重复率。
    3. FM-IQA
    FM-IQA也是基于MS-COCO,包含123,287张图像。它的question/answer pair是通过Amazon Mechanical Turk crowd-sourcing platform自动生成的。注释的人可以提出任何和图像相关的问题,使得FM-IQA相对于之前的数据集更加复杂。FM-IQA中的question/answer pair是中文的,之后才将其翻译成英文的。
    4. VQA dataset
    VQA dataset中的图像主要由两个部分组成:现实图像和抽象卡通图像。VQA-real中有123,287训练图像和81,434测试图像,主要来自于MS-COCO数据集。不同于之前的一些数据集,VQA-real中包含二元问题(i.e, yes/no)。这个数据集中可以进行多选设置,即为每个问题提供17个额外的错误的候选答案。综上所述,VQA-real包含614163个问题,并且每个问题都包含10个来自不同注视者的答案。
    5. Visual Genome
    Visual Genome包含108,249张图像,这些图像来自于YFCC100M和MS-COCO数据集,平均每张图像有17个Q/A pairs。到目前为止,这是最大的VQA数据集。Visual Genome的问题主要由6种”W”构成:what,where,how,when,who和why。
    6. Visual7W
    Visual7W是Visual Genome的一个子集,包含47,300张图像。Visual7W的问题主要由What, Where, How, When, Who,Why, and Which构成。Visual7W的问题是多选问题,每个问题都有四个候选答案。

    评价方法:

1.Accuracy
2.Wu-Palmer Similarity (WUPS)

作者:这样子的话
出处:http://blog.csdn.net/lsh894609937/article/details/61645283

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
VQA(Visual Question Answering)是指通过计算机视觉自然语言处理技术,让计算机能够回答与图像相关的自然语言问题。在VQA研究中,数据集是非常重要的,下面介绍几个经典的VQA数据集: 1. VQA v1和VQA v2 VQA v1和VQA v2是VQA领域最早和最重要的两个数据集。它们包含了超过200,000张图像和超过1,000,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、属性等各方面,答案可以是单词、短语或句子。VQA v2相比于VQA v1,增加了一些挑战性的问题,例如需要推理或者需要多步骤计算。 2. COCO-QA COCO-QA是基于COCO(Common Objects in Context)数据集构建的VQA数据集,包含了超过120,000张图像和超过750,000个与图像相关的问题和答案。与VQA数据集不同的是,COCO-QA的问题和答案都是多项选择的形式,其中一个正确,其余的错误。 3. Visual7W Visual7W是一个涉及到7个“W”(Who、What、Where、When、Why、How和Which)的VQA数据集,包含了超过47,000张图像和超过300,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、动作等各方面。 4. GQA GQA(Visual Genome Question Answering)是一个基于Visual Genome数据集构建的VQA数据集,包含了超过22,000张图像和超过1,000,000个与图像相关的问题和答案。GQA中的问题具有更高的复杂性,需要对图像中的物体属性、关系、逻辑推理等方面进行推理。 以上是几个经典的VQA数据集,它们都为VQA领域的研究提供了丰富的数据资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值