因为要预研VQA项目参考,趁GPU满负荷的时间,记录下这个数据集相关笔记:
官方网站http://www.visualqa.org/
目前发布了v1.0, 包含
真实图像(MSCOCO 数据集):
- 204,721 MSCOCO images
(all of current train/val/test) - 614,163 questions
- 6,141,630 ground truth answers
- 1,842,489 plausible answers
以及抽象场景Abstract Scenes
- 50,000 abstract scenes
- 150,000 questions
- 1,500,000 ground truth answers
- 450,000 plausible answers
- 250,000 captions
两部分
每张图3个问题,每个问题有10个真实答案和3个plausible可能的(可能不正确)的答案
开放域和多选择回答任务
自动评价准则
占坑,持续添加....