VQA(MSCOCO)数据集相关介绍

最新推荐文章于 2024-08-26 21:41:43 发布

zdcs

最新推荐文章于 2024-08-26 21:41:43 发布

阅读量5.5k

点赞数 1

分类专栏：一般技巧和资源介绍计算机视觉文章标签：人工智能自然语言处理 VQA 图像处理计算机视觉

本文链接：https://blog.csdn.net/zdcs/article/details/53513960

版权

一般技巧和资源介绍同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

计算机视觉

7 篇文章 0 订阅

订阅专栏

因为要预研VQA项目参考，趁GPU满负荷的时间，记录下这个数据集相关笔记：

官方网站http://www.visualqa.org/

目前发布了v1.0, 包含

真实图像（MSCOCO 数据集）：

204,721 MSCOCO images
(all of current train/val/test)
614,163 questions
6,141,630 ground truth answers
1,842,489 plausible answers

以及抽象场景Abstract Scenes

50,000 abstract scenes
150,000 questions
1,500,000 ground truth answers
450,000 plausible answers
250,000 captions

两部分

每张图3个问题，每个问题有10个真实答案和3个plausible可能的（可能不正确）的答案

开放域和多选择回答任务

自动评价准则

占坑，持续添加....

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zdcs

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

视频质量评价VQA公开数据集介绍

想都是问题，做才有答案～～

05-29

348

视频质量评价VQA公开数据集介绍

视觉问答数据集数据集.zip

02-10

计算机视觉数据集，想预览内容可私信作者

参与评论您还未登录，请先登录后发表或查看评论

关键点检测标注文件解析（姿态估计）——COCO数据集

最新发布

秃头小苏的博客

08-26

1243

Hello，大家好，我是小苏👦🏽👦🏽👦🏽最近在学习关键点检测的知识，其中用到了COCO数据集中的关键点标注数据，自己对其不是特别熟悉，于是学习了一下，在此记录。🍋🍋🍋我认为阅读一个代码或者看一个项目源码时，充分了解其数据集的结构是十分有必要的，如果你也对COCO关键点检测的标注信息不是很熟悉的话，这篇文章将会对你有帮助。🥂🥂🥂话不多说，让我们一起来看看叭~~~🚖🚖🚖。

VQA数据集介绍

xiashilin的博客

10-18

3797

VQA数据集及评价方法介绍

lsh894609937的专栏

03-12

7207

VQA(Visual Question Answering)是一项涉及到计算机视觉和自然语言处理的视觉任务，简单介绍下当前VQA所使用的数据集： 1. DQAUAR DAQUAR(The DAtaset for QUestion Answering on Real-world images)是最早提出的VQA数据集，也是最小的VQA数据集。DAQUAR中的图像来自于NYU-D

OK-VQA数据集

qq_38343151的博客

12-09

4076

《OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge》这篇文章中提出了articlenet网络来编码提取出来的文章，文章中也提出了OK-VQA数据集。回答该数据集的问题是一项有挑战性的任务。 1、介绍 VQA使得我们能够在视觉和语言的联合空间中学习推理，也能够进行场景理解。然而，大部分的VQA都...

VQA dataset

不务正业的猿

09-20

375

原文： VQA is a new dataset containing open-ended questions about images. These questions require an understanding of vision, language and commonsense knowledge to answer.265,016 images (COCO and abstract scenes) At least 3 questions (5.4 questions on ave

easy-VQA:Easy Visual Questioning Answering数据集

05-04

易vqa Easy Visual Question Answering（easy-VQA）数据集的官方存储库。包含： 数据集的官方用于生成数据集的源代码阅读以获取更多信息。关于数据集 easy-VQA包含 4,000张火车图像和38,575条火车问题。 1,000个测试图像和9,673个测试问题。总共13个可能的答案。 28,407个是/否的培训问题。 7,136个是/否的测试问题。所有图像均为64x64彩色图像。查看在数据集上训练的模型的。范例图片（以上这些图片链接仅适用于Github ）示例问题矩形是什么颜色？图像中是否包含三角形？没有蓝色的形状吗？图像包含什么形状？安装套件 pip install easy-vqa 使用包装问题每个问题分为三个部分：问题文字答案图片编号问题获取器为3个部分中的每个部分返回对应

VQA数据集调研报告

03-21

5085

VQA数据集调研报告2018年3月16日14:22一、VQA数据集1.与问题相关的数据集（related to questions）1.1.训练集（training set）（1）基本情况介绍：name：v2_OpenEnded_mscoco_train2014_questions.jsonsize：40Mversion: 2.0year: 2017 contributor: VQA Team d...

VQA（图像问答）数据集结构及大致内容

Geek_of_CSDN的博客

10-15

6845

这篇文章只讲下VQA的文件结构和文件内容，官方工具的用法及一些小技巧。 VQA数据集概况其实VQA有很多种数据集，比较常用的有VQA v1.0、 VQA v2.0、Visual7W等。这篇文章中使用的数据集主要是VQA v1.0（其实和2.0差不多，读取方式没变，只是优化了内容，让模型更加不容易通过蒙来答对问题）。直接开始吧。 VQA V1.0结构及内容概要 VQA v1.0的数据集内容如下1： VQA的结构：以上图片截图自VQA官网总之就是每张图片对应3个以上的问题（平均5.4个），每个问题对

多模态大模型训练数据集汇总介绍

hello AI

11-21

7440

RefCOCO+中的查询不包含绝对的方位词，如描述对象在图像中位置的右边。OCR-VQA-200K是一个通过读取图像中的文本(OCR)进行视觉问答的大规模数据集，包含20多万张书籍封面图像及100多万个相关问答对，随机将80%、10%和10%的图像分别用于训练、验证和测试，因此分别产生了大约800K、100K和100K的训练、验证和测试QA对。数据集示例如下图所示，每个图的 caption 描述在图片正下方，绿色是根据下面的 caption 标注的 gt，蓝色是预测正确的框，红色是预测错误的框。

MS COCO2017数据集

06-25

COCO 数据集（全称为 Common Objects in Context）目前最常用于图像检测定位的数据集，是一个新的图像识别、分割、和字幕数据集，其对于图像的标注信息不仅有类别、位置信息，还有对图像的语义文本描述。本资源提供coco 2017下载资源网盘链接，如果失效可以根据文件中邮箱地址咨询。

TextVQA:TextVQA数据集的网站

05-14

TextVQA网站该项目是使用create-react-app 。要运行它，请按照以下说明进行操作：安装节点的最新版本。（最好通过安装）通过npm install -g yarn 克隆存储库，并在其中cd frontend && yarn install 。现在运行yarn start ，您的网站应该会在浏览器中弹出。执照在文件中找到LICENSE。

MSCOCO dataset下载链接

12-14

MScoco 数据集，2014-2015均有

收集各种NLP数据集的链接.zip

11-10

9. **多模态数据集**：如MS COCO或VQA，结合图像和文本信息，用于研究视觉问答和图文理解等任务。 10. **对话系统数据集**：如DSTC系列，提供了多轮对话记录，帮助构建聊天机器人和对话管理系统。 **empty_file....

《深入浅出多模态》（二）：多模态任务及数据集介绍

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

02-04

1819

本文为《深入浅出多模态》系列第二章，《多模态任务介绍与背景》主要介绍多模态模型的概念、技术难点、下游任务（Visual Grounding、VQA、image/Video Captioning等）及各类应用方向数据集展开介绍，本专栏适合从事多模态小白及爱好者学习，欢迎大家关注，如有侵权请联系删除！

Text-VQA数据集以及方法总结

学无止境

08-04

6308

【数据集收集】用于视觉问答VQA常用的数据集（持续更新，最后更新时间2019-09）

热门推荐

QQ704630835的博客

08-23

1万+

一、背景最近刚开始做视觉问答VQA，看了很多文献，但是目前还无从下手，所以准备先把网上的公开的VQA数据集记录下来。前面自己也读了一些文献，文献中多多少少都有介绍数据集的情况，比如： [1]【文献阅读】VQA的综述：数据集，算法和挑战（K. Kafle等人，Computer Vision and Image Understanding，2017） [2]【文献阅读】兼顾图像理解和推理能...

2017 VQA Challenge 第一名技术报告

Paper weekly

09-26

1159

作者丨罗若天学校丨TTIC博士生研究方向丨NLP，CV 1. 前言之前听 Chris Manning 讲过一个 talk，说他们复现别人的 paper，按照别人的算法写，做到了比原本那篇 paper 高了 10 个点的结果。还有听认识的同学说，有一年因为算法的 performance 不够好论文被拒了，第二年重新回过去跑那个代码，随便调了调，

VQA经典数据集的介绍

06-11

VQA（Visual Question Answering）是指通过计算机视觉和自然语言处理技术，让计算机能够回答与图像相关的自然语言问题。在VQA研究中，数据集是非常重要的，下面介绍几个经典的VQA数据集： 1. VQA v1和VQA v2 VQA v1和VQA v2是VQA领域最早和最重要的两个数据集。它们包含了超过200,000张图像和超过1,000,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、属性等各方面，答案可以是单词、短语或句子。VQA v2相比于VQA v1，增加了一些挑战性的问题，例如需要推理或者需要多步骤计算。 2. COCO-QA COCO-QA是基于COCO（Common Objects in Context）数据集构建的VQA数据集，包含了超过120,000张图像和超过750,000个与图像相关的问题和答案。与VQA数据集不同的是，COCO-QA的问题和答案都是多项选择的形式，其中一个正确，其余的错误。 3. Visual7W Visual7W是一个涉及到7个“W”（Who、What、Where、When、Why、How和Which）的VQA数据集，包含了超过47,000张图像和超过300,000个与图像相关的问题和答案。这些问题涉及到图像中的对象、场景、动作等各方面。 4. GQA GQA（Visual Genome Question Answering）是一个基于Visual Genome数据集构建的VQA数据集，包含了超过22,000张图像和超过1,000,000个与图像相关的问题和答案。GQA中的问题具有更高的复杂性，需要对图像中的物体属性、关系、逻辑推理等方面进行推理。以上是几个经典的VQA数据集，它们都为VQA领域的研究提供了丰富的数据资源。