图像分类、目标检测、图像分割----简介

最新推荐文章于 2024-07-26 00:35:11 发布

fancyNSEU

最新推荐文章于 2024-07-26 00:35:11 发布

阅读量2.8k

点赞数

文章标签：内容运营目标检测分类

本文链接：https://blog.csdn.net/yule200910/article/details/121545134

版权

1.图像分类：单任务算法
1.1 公开数据集：

（1）MNIST：10个类别，手写数字体数据集，6万条训练数据和1万条测试数据，28*28的灰度图；

（2）FashionMNIST：10个类别，6万条训练数据和1万条测试数据，28*28的灰度图，衣服、裤子、鞋子等；

（3）CIFAR10：10个类别，5万条训练数据和1万条测试数据，32*32彩色图，飞机、汽车、猫、狗等；

（4）CIFAR100：100个类别，5万条训练数据和1万条测试数据,32*32彩色图；

（5）ImageNet：

准确度和召回率是针对单一类别的，有时候准确率并不能反应模型的效果，如测试癌症，有990个正常样本和10个癌症样本，都预测准确也有99%。准确度和召回率用于反应正样本、负样本分别被准确、错误分类的效果。可以用混淆矩阵来表现；

准确度（precision）：Precision = TP /（TP + FP）

召回率（recall）：Recall = TP / （TP + FN）

结合准确度和召回率得出F1 score：

2 / F1 = 1 / P + 1 / R，即：F1 = 2 * P * R / （P + R）

不仅需要确定目标的类别，还需要确定目标的位置。一条回路用来做目标位置回归，一条回路用来做目标分类；

应用场景：人脸检测、文本检测（OCR）

（1）one-stage：直接基于网络提取到的特征和预定义的框进行目标检测；

SSD（Single Shot Detection）：

YOLO（You Only Look Once）：

（2）two-stage：先通过网络提取到的特征和预定义的框学习得到侯选框，然后基于候选框的特征进行目标检测；

Fastre-RCNN：

（1）主网络部分：特征提取

（2）预测部分：目标类别分类和目标位置回归

（3）NMS操作：非极大值抑制（Non Maximum Suppression），去掉重复的预测框

语义分割：将图像中指定类别的目标分割出来，不区分相同类别的目标；

实例分割：还能够区分相同类别的目标；

评价指标：

（1）像素准确率：

（2）Mean IoU（Mean of class-wise Intersaction over Union）：

关注