VQA(MSCOCO)数据集相关介绍

因为要预研VQA项目参考,趁GPU满负荷的时间,记录下这个数据集相关笔记:

官方网站http://www.visualqa.org/


目前发布了v1.0, 包含

真实图像(MSCOCO 数据集):

  • 204,721 MSCOCO images
    (all of current train/val/test)
  • 614,163 questions
  • 6,141,630 ground truth answers
  • 1,842,489 plausible answers

以及抽象场景Abstract Scenes
  • 50,000 abstract scenes
  • 150,000 questions
  • 1,500,000 ground truth answers
  • 450,000 plausible answers
  • 250,000 captions

两部分


每张图3个问题,每个问题有10个真实答案和3个plausible可能的(可能不正确)的答案


开放域和多选择回答任务


自动评价准则


占坑,持续添加....

VQA(Visual Question Answering)是指通过计算机视觉自然语言处理技术,让计算机能够回答与图像相关的自然语言问题。在VQA研究中,数据集是非常重要的,下面介绍几个经典的VQA数据集: 1. VQA v1和VQA v2 VQA v1和VQA v2是VQA领域最早和最重要的两个数据集。它们包含了超过200,000张图像和超过1,000,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、属性等各方面,答案可以是单词、短语或句子。VQA v2相比于VQA v1,增加了一些挑战性的问题,例如需要推理或者需要多步骤计算。 2. COCO-QA COCO-QA是基于COCO(Common Objects in Context)数据集构建的VQA数据集,包含了超过120,000张图像和超过750,000个与图像相关的问题和答案。与VQA数据集不同的是,COCO-QA的问题和答案都是多项选择的形式,其中一个正确,其余的错误。 3. Visual7W Visual7W是一个涉及到7个“W”(Who、What、Where、When、Why、How和Which)的VQA数据集,包含了超过47,000张图像和超过300,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、动作等各方面。 4. GQA GQA(Visual Genome Question Answering)是一个基于Visual Genome数据集构建的VQA数据集,包含了超过22,000张图像和超过1,000,000个与图像相关的问题和答案。GQA中的问题具有更高的复杂性,需要对图像中的物体属性、关系、逻辑推理等方面进行推理。 以上是几个经典的VQA数据集,它们都为VQA领域的研究提供了丰富的数据资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值