数据集与算法评估

最新推荐文章于 2024-09-16 17:12:39 发布

翠小白

最新推荐文章于 2024-09-16 17:12:39 发布

阅读量814

点赞数

文章标签：算法计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_47166887/article/details/123052378

版权

数据集与算法评估

数据集

Fashion-MNIST数据集

1、FashionMNIST 是一个替代 MNIST 手写数字集的图像数据集。它是由 Zalando旗下的研究部门提供，涵盖了来自 10 种类别的共 7 万个不同商品的正面图片。
2、FashionMNIST 的大小、格式和训练集/测试集划分与原始的MNIST 完全一致。60000/10000 的训练测试数据划分，28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能，且不需要改动任何的代码。

CIFAR-10数据集

1、 CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像；
2、数据集分为五个训练批次和一个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。

以下是数据集中的类，以及来自每个类的10个随机图像：
在这里插入图片描述

PASCAL VOC数据集

➢ PASCAL的全称是Pattern Analysis, Statistical Modelling and Computational Learning
➢ VOC的全称是Visual Object Classes
➢ 目标分类(识别)、检测、分割最常用的数据集之一
➢ 第一届PASCAL VOC举办于2005年，2012年终止。常用的是PASCAL 2012

➢ 一共分成20类：
⚫ person
⚫ bird, cat, cow, dog, horse, sheep
⚫ aeroplane, bicycle, boat, bus, car, motorbike, train
⚫ bottle, chair, dining table, potted plant, sofa, tv/monitor

20类图像实例：
在这里插入图片描述

MS COCO数据集

提供的标注类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。
⚫ 人：1类
⚫ 交通工具：8类，自行车，汽车等
⚫ 公路常见：5类，信号灯，停车标志等
⚫ 动物：10类，猫狗等
⚫ 携带物品：5类，背包，雨伞等
⚫ 运动器材：10类，飞盘，滑雪板，网球拍等。
⚫ 厨房餐具：7类，瓶子，勺子等
⚫ 水果及食品：10类
⚫ 家庭用品：7类，椅子、床，电视等
⚫ 家庭常见物品：17类，笔记本，鼠标，遥控器等

MS COCO数据集示例：
在这里插入图片描述

ImageNet数据集

➢ 始于2009年，李飞飞与Google的合作：“ImageNet: A Large-Scale Hierarchical Image Database”
➢ 总图像数据：14,197,122
➢ 总类别数：21841
➢ 带有标记框的图像数：1,034,908

➢ 训练集：1,281,167张图片+标签
➢ 类别数：1,000
➢ 验证集：50,000张图片+标签
➢ 测试集：100,000张图片

算法评估

算法评估相关概念

TP: 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数
FP: 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数
FN:被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数
TN: 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数
P(精确率）： TP/（TP+FP）
R(召回率）： TP/(TP+FN)。召回率越高，准确度越低
在这里插入图片描述

P-R曲线

P-R的关系曲线图，表示了召回率和准确率之间的关系
在这里插入图片描述
精度（准确度）越高，召回率越低
举个栗子：
例子：80个男生，20个女生，做个女生识别器。结果测试了50个全部
输出女生，其中20个本来是女生，30个男生
TP: 20; FP:30 FN:0， TN: 0.
准确率：40%；
召回率：100%