今天我们来了解一下google 的Open Images Dataset V4,它的网址是这个:
https://storage.googleapis.com/openimages/web/index.html
我推荐的
其它深度学习相关文章:
一、入口
首页很简洁,一个简单的说明和6个按钮,简短的介绍了其有600个类别的对象有15440132个方框标注,19,794个类别的30,113,078个图像级标签。其中我们比较关注Explore,Description和Download 三个功能。
二、Explore:快速浏览
打开以后大致长这样:
可以下拉框中选中一个类别,这时就可以快速看到一张张缩略图片和一些边界框了。粗略的浏览一下,可以发现有些类别图像很多,有些类别图像很少。
三、Description:数据集描述
我这边总结一下,主要讲了几点:
1)这个v4数据集主要有两种用途:
- 对象检测及分类,意思是说可以用这个数据集训练出对象检测模型,用于识别图像中的对象类别及位置边框。
- 视觉关系检测,比如你用这个v4数据集训练好一个模型,然后给模型一张图,模型会告诉你“女人在弹吉它”。
2)根据上面说的两个用途,google已经贴心的为你把这个数据集分成两份(共9,011,219张图,我感觉这两种数据集的图片不是互斥的,它们有相同的图片),每份又分成了训练集,验证集,测试集。
3)所有作用于对象检测及分类的图片主要特性是有边界框,一张图中可能有多个边界框,
训练集数量
|
验证集数量
|
测试集数量
|
对象类别
| |
图片
|
1743042
|
41620
|
125436
| |
边界框
|
14610229
|
204621
|
625282
|
600
|
平均每个图像有8.4个边界框。
4)所有作用于视觉关系的数据集,每张图都有若个标签
训练集数量
|
验证集数量
|
测试集数量
|
对象类别
| |
图片
|
9011219
|
41620
|
125436
| |
边界框
|
27,894,289
|
551,390
|
1,667,399
|
7186
|
原文还讲了很多是机器标注的,然后人为确认的,可以通过描述信息的某些字段区分。
四、Download 下载这个数据集(包括源图片及其它相关信息)
打开下载的界面,自然也分成两块数据集下载,比如我们拿对象类别检测用的数据集来说:
我们一行一行看:
第一行是指源图片本身下载,就是一张张图,不包含边界框等信息,主要两个地方可下,CVDF是指通用视觉数据基金会。
第二行就是指边界框等信息。我们试着下载一个下来,是个csv文件,我们暂称它为边界框表,打开以后像这样:
其中各个字段如下所
ImageID:边界框id,可以理解成一个外键,具体的描述在另一个文件里。
Source:表示边界框是如何制作的:
- freeform并且xclick是手动绘制的边界框。
- activemil是使用该方法的增强版生成的边界框。在IoU> 0.7时,这些经过人为验证是准确的。
LabelName
:此框属于的对象类的MID。
Confidence
:虚拟值,始终为1。
XMin
,
XMax
,
YMin
,
YMax
:框的坐标,在标准化图像坐标。XMin在[0,1]中,其中0是最左边的像素,1是图像中最右边的像素。Y坐标从顶部像素(0)到底部像素(1)。
这些属性具有以下定义:
- IsOccluded:表示该对象被图像中的另一个对象遮挡。
- IsTruncated:表示对象超出图像的边界。
- IsGroupOf:表示边界框跨越一组对象(例如,花坛或一群人)。我们要求注释者使用这个标签来处理5个以上的实例,这些实例会严重遮挡对方,并且会触及身体。
- IsDepiction:指示对象是描述(例如,对象的卡通或图画,而不是真实的物理实例)。
- IsInside:表示从对象内部拍摄的照片(例如,汽车内部或建筑物内部)。
第三行就是标签类别,一幅图上有几个对象,就给你打几个标签,我们暂称它为分类标签表,可做图像分类用。
Source
:表示注释的创建方式:
verification
是由Google内部注释人员验证的标签。crowdsource-verification
是由Crowdsource应用程序验证的标签。machine
是机器生成的标签。
Confidence
:经人工验证出现在图像中的标签的置信度= 1(正标签)。经过人工验证的图像中缺失的标签的置信度= 0(负标签)。机器生成的标签具有部分置信度,通常> = 0.5。信心越高,标签成为假阳性的机会就越小。
第四行就是图像的相关信息,它包含图片网址,OpenImages ID,轮换信息,标题,作者和许可证信息,我们暂称它为图片表,可以看得出来,几乎所有的图像都来自flickr网站。
每个图像都有一个唯一的64位ID分配。在CSV文件中,它们显示为零填充的十六进制整数,例如000060e3121c7305
。
数据与目标网站上显示的数据相同。
OriginalSize
是原始图像的下载大小。OriginalMD5
是base64编码二进制MD5,如所描述这里。Thumbnail300KURL
是约300K像素(〜640x480)的缩略图的可选网址。它提供了为了方便下载数据而没有更方便的方式来获取图像。如果丢失,OriginalURL
必须使用(如果需要,然后调整大小相同的大小)。这些缩略图会随时生成,其内容甚至解析度可能每天都会有所不同。Rotation
是,图像应逆时针转动,以匹配Flickr用户预期的方向(多少度0
,90
,180
,270
)。nan
意味着这些信息不可用。查看此公告以获取有关此问题的更多信息。- 我们可以按照这个地址,自已一个一个去下,或者去第一行那边下完整的包都是可以的。
第五行就是元数据了,比较简单,就是分类实际名称,我们暂称它为标签表。
可以将MID格式的类名转换为简短描述,
请注意逗号和引号等字符的存在。该文件遵循标准的CSV转义规则。例如:
/m/02wvth,"Fiat 500 ""topolino"""
/m/03gtp5,Lamb's quarters
/m/03hgsf0,"Lemon, lime and bitters"
从上面四个表可以看出,它们形成了一个小小的数据库表关系:
非常简单的外键关系,图片表描述图片信息,最重要是下载地址,边界框表主要描述一张图有几个边框,它与图片表通过外键ImageID关联,同时每个边框具体属于哪个分类,又要通过LabelName外键和标签表关联。
我推荐的
其它深度学习相关文章: