常见的评价指标及其计算方法

最新推荐文章于 2024-06-01 17:23:25 发布

向大厂出发

最新推荐文章于 2024-06-01 17:23:25 发布

阅读量7.2k

点赞数 3

文章标签： python 机器学习人工智能

本文链接：https://blog.csdn.net/weixin_48697962/article/details/126620852

版权

分类任务

分类任务一般有二分类、多分类和多标签分类。

多分类：表示分类任务中有多个类别，但是对于每个样本有且仅有一个标签，例如一张动物图片，它只可能是猫，狗，虎等中的一种标签（二分类特指分类任务中只有两个类别）。

多标签：一个样本可以有多个标签。例如文本分类中，一个文本可以是宗教相关，也可以是新闻相关，所以它就可以有两个标签。

常见的评价指标有：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 score、ROC曲线（Receiver Operating Characteristic Curve）等。

混淆矩阵

混淆矩阵是数据科学和机器学习中经常使用的用来总结分类模型预测结果的表，用n行n列的矩阵来表示，将数据集中的记录按照“真实的类别”和“预测的类别”两个标准进行汇总。以二分类任务为例，混淆矩阵的结构如下：

真实情况	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

第一位表示模型预测的是否正确，T(True)表示预测正确,F(False)表示预测错误；
第二位表示模型的预测结果，P(Positive)表示预测为正样本，N(negative)表示预测为负样本；

TP：表示实际为正被预测为正的样本数量；
FP：表示实际为负但被预测为正的样本数量；
FN：表示实际为正但被预测为负的样本的数量；
TN：表示实际为负被预测为负的样本的数量。
另外，TP+FP表示所有被预测为正的样本数量，同理FN+TN为所有被预测为负的样本数量，TP+FN为实际为正的样本数量，FP+TN为实际为负的样本数量。

1.准确率

准确率是分类正确的样本占总样本个数的比例，即：

Accuracy=(TP+TN)/(TP+FN+FP+TN)

准确率指标的缺陷：

准确率是分类问题中最简单直观的评价指标，但存在明显的缺陷。比如如果样本中有99%的样本为正样本，那么分类器只需要一直预测为正，就可以得到99%的准确率，但其实际性能是非常低下的。也就是说，当不同类别样本的比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。

2. 精确率(精确度)

精确率指模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例。计算公式为：

Precision=TP/(TP+FP)

3.召回率

召回率指实际为正的样本中被预测为正的样本所占实际为正的样本的比例。计算公式为：

R=TP/(TP+FN)

召回率直观地说是分类器找到所有正样本的能力。召回率最好的值是1，最差的值是0.

4.P-R曲线

评价一个模型的好坏，不能仅靠精确率或者召回率，最好构建多组精确率和召回率，绘制出模型的P-R曲线。

P-R曲线的横轴是召回率，纵轴是精确率。P-R曲线上的一个点代表着：在某一阈值下，模型将大于该阈值的结果判定为正样本，小于该阈值的结果判定为负样本，此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。原点附近代表当阈值最大时模型的精确率和召回率。

（图来自西瓜书）

如果一个模型的P-R曲线被另一个模型的P-R曲线完全包住，则可断言后者的性能优于前者，例如上面的A和B优于学习器C。

如果两个模型的PR曲线相交，如A和B的性能无法直接判断，我们可以根据曲线下方的面积大小来进行比较，但更常用的是平衡点或者是F1值。

平衡点(BEP)是P=R时的取值，如果这个值较大，则说明学习器的性能较好。而F1 = 2 * P * R ／( P + R )，同样，F1值越大，我们可以认为该学习器的性能较好。

5.ROC曲线

在ROC曲线中，横轴是假正例率（FPR），纵轴是真正例率（TPR）。

真正例率(True Postive Rate)TPR: TP / (TP+FN)，也就是在所有正例当中，正确判断为正例的占的比例，实际就是精度。
负正例率(False Postive Rate)FPR: FP / (FP+TN)，也就是在所有负例当中，错误的判断为正例所占的比例。
ROC曲线也需要相应的阈值才可以进行绘制，原理同上的PR曲线。

下图为ROC曲线示意图，因现实任务中通常利用有限个测试样例来绘制ROC图，因此应为无法产生光滑曲线，如右图所示。

绘图过程：

step1.给定m个正例子，n个反例子，根据学习器预测得分进行排序;

step2.先把分类阈值设为最大，使得所有例子均预测为反例，此时TPR和FPR均为0，在（0，0）处标记一个点;

step3.再将分类阈值依次设为每个样例的预测值，即依次将每个例子划分为正例。设前一个坐标为(x,y)，若当前为真正例，对应标记点为(x,y+1/m)，若当前为假正例，则标记点为（x+1/n,y），然后依次连接各点。

ROC曲线图中的四个点

第一个点：(0,1)，即FPR=0, TPR=1，这意味着FN=0，并且FP=0。这是完美的分类器，它将所有的样本都正确分类。
第二个点：(1,0)，即FPR=1，TPR=0，类似地分析可以发现这是一个最糟糕的分类器，因为它成功避开了所有的正确答案。
第三个点：(0,0)，即FPR=TPR=0，即FP=TP=0，可以发现该分类器预测所有的样本都为负样本（negative）。
第四个点：(1,1)，分类器实际上预测所有的样本都为正样本。经过以上的分析，ROC曲线越接近左上角，该分类器的性能越好。