三、计算机视觉_10经典的数据集与目标检测数据标注格式

1、三大经典的数据集

在计算机视觉领域中,有三个非常著名且常用的数据集,分别是ImageNet、MS COCO和PASCAL VOC

1.1 ImageNet

  • 来源:由斯坦福大学的研究者李飞飞等人领导的团队创建
  • 分类数量:包含1000个类别,每个类别大约有1000张图像,总共超过100万张经过标注的图像
  • 用途:主要用于图像分类任务,但也被用于其他任务,如目标检测和深度学习模型的预训练
  • 特点:ImageNet数据集的规模和多样性使其成为计算机视觉领域,尤其是深度学习领域中最重要的数据集之一,它推动了图像识别技术的发展,并被用于一年一度的ImageNet大规模视觉识别挑战(ILSVRC)

1.2 MS COCO

  • 来源: 微软于2014年出资标注的Microsoft COCO数据集(Microsoft Common Objects in Context)

  • 分类数量:包含80个类别,超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个,覆盖了日常生活中的常见物体

  • 用途:支持多种视觉任务,包括目标检测、实例分割、语义分割和关键点检测

  • 特点:MS COCO数据集以其复杂的日常场景和详尽的标注而闻名。它不仅提供了目标的边界框,还包括了目标的分割掩码和关键点标注,适合进行更高级的计算机视觉任务。

1.3 PASCAL VOC

  • 来源: 由欧盟资助的PASCAL2 Network of Excellence on Pattern Analysis, Statistical Modelling and Computational Learning项目

  • 分类数量:包含20个类别,11530张图片,总共27450个ROI标注对象和6929个分割标注

  • 用途:最初是为了图像分类任务而创建的,后来扩展到目标检测、实例分割和语义分割任务

  • 特点:PASCAL VOC数据集是计算机视觉领域较早的数据集之一,对目标检测技术的发展有重要影响,它包含的图像数量相对较少,但每个图像都经过了精心的标注,适合用于算法的验证和测试

2、三种经典的目标检测数据标注格式

目标检测的数据标注格式对于训练和评估目标检测模型至关重要,它提供了一种标准化的方式来定义图像中目标对象的位置,从而帮助模型更好地学习和识别目标物体,以此提高算法的准确性和泛化能力‌

常见的数据标注格式有yolo(.txt)、coco(.json)、voc(.xml)这三种,三种格式之间也可以通过一定的代码进行互相转换

2.1 YOLO格式

  • 文件类型:使用.txt文件存储标注信息
  • 坐标表示:使用相对坐标,通过cls_id, x_center, y_center, w, h表示,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值