各视觉任务评测指标解析

最新推荐文章于 2024-04-03 07:30:00 发布

wonengguwozai

最新推荐文章于 2024-04-03 07:30:00 发布

阅读量1k

点赞数

分类专栏：检测与识别深度学习中的科普文章标签：视觉任务评测指标

本文链接：https://blog.csdn.net/wonengguwozai/article/details/95502712

版权

检测与识别同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

深度学习中的科普

9 篇文章 0 订阅

订阅专栏

引言：本人做了一些不同视觉任务，今天突然考虑到应当总结下不同评测指标。下面将以不同类别的任务进行。

图像去燥、增强任务：
- 评测指标：PSNR、SSIM
- 指标说明(均需要有ground truth 作为评测基准)：
  - PSNR(峰值信噪比)：维基链接
  - SSIM(相似性度量):维基链接
图像分类
- 评测指标：准确率（top1、top5）、错误率（top1、top5）、混淆矩阵、召回率、精确率、P-R曲线、平均精度（Average-Precision，AP）、mAP、F指标、ROC曲线
- 指标说明（这里以top1为例）：
  - 准确率 = 正确分类数量 / 样本总数
  - 错误率 = 错误分类数量 / 样本总数
  - 混淆矩阵（Confusion Matrix）：行表示数据在模型上的预测类别，列表示数据的真实类别。对角线，表示模型预测和数据标签一致的数目，所以对角线之和除以测试集总数就是准确率。该指标方便直观的评估模型分类的结果。附图：
  - 召回率（recall）：召回率即为真正率，又被称为查全率，预测为正例的样本中正确的数量除以真正的正例的数量，计算公式：recall=TPR=TP/(TP+FN)
  - 精确率（precision）：又称为查准率，被分为正例中实际为正例的比例，即：
    Precision=TP/（TP+FP）
    （说明：召回率和精确率更加关注的是某一个类别对错与否的标签；另外一定程度解决准确率在样本不均衡时出现的问题，如：正样本10，负样本990，这时即使模型把1000个样本全部预测为负样本，准确率（Accuracy）也有99%，这显然是有问题的。）
  - P-R曲线：选取不同阈值（这里的阈值是对分类置信度设置的，如>0.5为正例）时对应的精度和召回画出来。总体趋势，精度越高，召回越低，当召回达到1时，对应概率分数最低的正样本，这个时候正样本数量除以所有大于等于该阈值的样本数量就是最低的精度值。附图：
  - 平均精度（Average-Precision，AP）：P-R曲线围起来的面积和就是AP，通常来说一个越好的分类器，AP值越高。
  - mAP: AP是在单一类别上的指标评价，有时需要综合考虑所有类别，那么每一类别都会有其AP值的信息，mAP就是将其做了一个平均操作。
  - F指标：
  - ROC曲线（如下图）：
目标检测
- 评价指标：准确率（Accuracy）、错误率（Error rate）、混淆矩阵（Confusion Matrix）、召回率（Recall）、精确率（Precision）、 P-R曲线、平均精度（Average-Precision，AP）、平均精度均值(Mean Average Precision，mAP)、IOU（交并比）
- 可以看出目标检测的评价指标基本与分类任务一样，在分类中已经介绍，不在赘述。此外IOU也不在哆嗦。
语义分割评价指标：
人脸识别
- 评测指标：FAR、FRR、ERR、ROC、召回率（Recall）
- 误识率（FAR）：
  - FAR（误识率）= 本该匹配失败判为匹配成功的次数 / 类间匹配总次数；
- 拒识率(FRR)
  - FRR(拒识率) = 本该匹配成功判为匹配失败的次数 / 类内匹配总次数；
- 举例：假定有110个人，每人的大拇指的8幅指纹图片共110*8=880幅的指纹数据库，即110类，每类8幅图片。当然，我们希望类内的任意两幅图片匹配成功，类间的任意图片匹配失败。现在我们让库中的每一幅图片除开它自身之外与其他的所有图片进行匹配，分别计算误识率，与拒识率。
  - 假定由于指纹识别算法性能的原因，把本应该匹配失败的判为匹配成功，若假定这种错误次数为1000次。理论情况下，来自同一个指纹的图像都成功匹配，次数为7x8x110=6160次，匹配的总次数，即880×(880-1)=773520次。匹配失败次数应为773520-6160=767360次。
  - 则误识率FAR为1000/767360*100%=0.13%。
  - 拒识率（FRR）：假定由于指纹识别算法性能的原因，把本应该匹配成功的判为匹配失败，若这种错误次数为160次。则拒识率为160/6160=2.6%.
- 说明：在实际使用时一般结合FRR和FAR使用，如百万分之一FAR时的FRR，千万分之一FAR时的FRR的值来判别模型性能（开源模型在个人的评测集上能达到千万分之一误识率（FAR）时拒识率（FRR）控制在6%左右）。
- ROC曲线（与分类任务ROC曲线坐标轴标识的量不同，纵轴FAR，横轴FRR）：
- ERR(等错误率)：是FAR、FRR的一个平衡点。错误率能够取到的值越低，表示算法的性能越好。ROC曲线中y=x与曲线的交点。
- 召回率（Recall）:计算上与TPR是相同的，有时会使用该指标进行衡量。