目标检测数据集

最新推荐文章于 2024-06-08 08:25:29 发布

计算机视觉从零学

最新推荐文章于 2024-06-08 08:25:29 发布

阅读量4.8k

点赞数 1

分类专栏：图像分类文章标签：深度学习

原文链接：https://blog.csdn.net/qq_37541097

版权

图像分类专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1.Pascal VOC数据集

PASCAL VOC挑战赛主要包括以下几类：图像分类(Object Classification)，目标检测(Object Detection)，目标分割(Object Segmentation)，行为识别(Action Classification) 等。
在Pascal VOC数据集中主要包含20个目标类别，下图展示了所有类别的名称以及所属超类。
在这里插入图片描述
官网数据集下载

在这里插入图片描述
下载解压后的文件目录结构如下所示：

VOCdevkit
    └── VOC2012
         ├── Annotations               所有的图像标注信息(XML文件)
         ├── ImageSets    
         │   ├── Action                人的行为动作图像信息
         │   ├── Layout                人的各个部位图像信息
         │   │
         │   ├── Main                  目标检测分类图像信息
         │   │     ├── train.txt       训练集(5717)
         │   │     ├── val.txt         验证集(5823)
         │   │     └── trainval.txt    训练集+验证集(11540)
         │   │
         │   └── Segmentation          目标分割图像信息
         │         ├── train.txt       训练集(1464)
         │         ├── val.txt         验证集(1449)
         │         └── trainval.txt    训练集+验证集(2913)
         │ 
         ├── JPEGImages                所有图像文件
         ├── SegmentationClass         图像分割png图（基于类别）
         └── SegmentationObject        实例分割png图（基于目标）

注意，train.txt、val.txt和trainval.txt文件里记录的是对应标注文件的索引，每一行对应一个索引信息。如下图所示：
在这里插入图片描述
接下来简单介绍下如何使用该数据集中目标检测的数据。

首先在Main文件中，读取对应的txt文件（注意，在Main文件夹里除了train.txt、val.txt和trainval.txt文件外，还有针对每个类别的文件，例如bus_train.txt、bus_val.txt和bus_trainval.txt）。比如使用train.txt中的数据进行训练，那么读取该txt文件，解析每一行。上面说了每一行对应一个标签文件的索引。

   ├── Main                  目标检测分类图像信息
   │     ├── train.txt       训练集(5717)
   │     ├── val.txt         验证集(5823)
   │     └── trainval.txt    训练集+验证集(11540)

接着通过索引在Annotations文件夹下找到对应的标注文件（.xml）。比如索引为2007_000323，那么在Annotations文件夹中能够找到2007_000323.xml文件。如下图所示，在标注文件中包含了所有需要的信息，比如filename，通过在字段能够在JPEGImages文件夹中能够找到对应的图片。size记录了对应图像的宽、高以及channel信息。每一个object代表一个目标，其中的name记录了该目标的名称，pose表示目标的姿势（朝向），truncated表示目标是否被截断（目标是否完整），difficult表示该目标的检测难易程度（0代表简单，1表示困难），bndbox记录了该目标的边界框信息。
在这里插入图片描述
接着通过在标注文件中的filename字段在JPEGImages文件夹中找到对应的图片。比如在2007_000323.xml文件中的filename字段为2007_000323.jpg，那么在JPEGImages文件夹中能够找到2007_000323.jpg文件。

2.COCO数据集

COCO的全称是Common Objects in COntext，是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。
MS COCO数据集下载
这里以下载coco2017数据集为例，主要下载三个文件：

2017 Train images [118K/18GB]：训练过程中使用到的所有图像文件
2017 Val images [5K/1GB]：验证过程中使用到的所有图像文件
2017 Train/Val annotations [241MB]：对应训练集和验证集的标注json文件

下载后都解压到coco2017目录下，可以得到如下目录结构：

├── coco2017: 数据集根目录
     ├── train2017: 所有训练图像文件夹(118287张)
     ├── val2017: 所有验证图像文件夹(5000张)
     └── annotations: 对应标注文件夹
     		  ├── instances_train2017.json: 对应目标检测、分割任务的训练集标注文件
     		  ├── instances_val2017.json: 对应目标检测、分割任务的验证集标注文件
     		  ├── captions_train2017.json: 对应图像描述的训练集标注文件
     		  ├── captions_val2017.json: 对应图像描述的验证集标注文件
     		  ├── person_keypoints_train2017.json: 对应人体关键点检测的训练集标注文件
     		  └── person_keypoints_val2017.json: 对应人体关键点检测的验证集标注文件夹

MS COCO标注文件格式
可以自己用Python的json库自己读取看下，下面以读取 instances_val2017.json为例：

import json

json_path = "/data/coco2017/annotations/instances_val2017.json"
json_labels = json.load(open(json_path, "r"))
print(json_labels["info"])

单步调试可以看到读入进来后是个字典的形式，包括了info、licenses、images、annotations以及categories信息：
在这里插入图片描述
其中：

images是一个列表（元素个数对应图像的张数），列表中每个元素都是一个dict，对应一张图片的相关信息。包括对应图像名称、图像宽度、高度等信息。
annotations是一个列表（元素个数对应数据集中所有标注的目标个数，注意不是图像的张数），列表中每个元素都是一个dict对应一个目标的标注信息。包括目标的分割信息、目标边界框信息[x,y,width,height]（左上角x,y坐标，以及宽高）、目标面积、对应图像id以及类别id等。iscrowd参数只有0或1两种情况，一般0代表单个对象，1代表对象集合。
categories是一个列表（元素个数对应检测目标的类别数）列表中每个元素都是一个dict对应一个类别的目标信息。包括类别id、类别名称和所属超类。
一个使用pycocotools读取图像以及对应targets信息的简单示例：

import os
from pycocotools.coco import COCO
from PIL import Image, ImageDraw
import matplotlib.pyplot as plt

json_path = "/data/coco2017/annotations/instances_val2017.json"
img_path = "/data/coco2017/val2017"

# load coco data
coco = COCO(annotation_file=json_path)

# get all image index info
ids = list(sorted(coco.imgs.keys()))
print("number of images: {}".format(len(ids)))

# get all coco class labels
coco_classes = dict([(v["id"], v["name"]) for k, v in coco.cats.items()])

# 遍历前三张图像
for img_id in ids[:3]:
    # 获取对应图像id的所有annotations idx信息
    ann_ids = coco.getAnnIds(imgIds=img_id)

    # 根据annotations idx信息获取所有标注信息
    targets = coco.loadAnns(ann_ids)

    # get image file name
    path = coco.loadImgs(img_id)[0]['file_name']

    # read image
    img = Image.open(os.path.join(img_path, path)).convert('RGB')
    draw = ImageDraw.Draw(img)
    # draw box to image
    for target in targets:
        x, y, w, h = target["bbox"]
        x1, y1, x2, y2 = x, y, int(x + w), int(y + h)
        draw.rectangle((x1, y1, x2, y2))
        draw.text((x1, y1), coco_classes[target["category_id"]])

    # show image
    plt.imshow(img)
    plt.show()