目录
1 引言
机器学习中的任务主要分为分类与回归,分类主要分为二分类与多分类,在分类任务中一般有
Precision、 Accuracy 、Recall、F1 scrore 、 AUC-ROC这五种方法作为评价指标。这五种评价指标均为TP、FN、FP和TN这四个基本属性组成,这四个基本属性的基本含义:
TP(True Positive 真正):将正确的预测为正确的,即预测正确了。或者说将A类正确预测为A类。
FN(Fasle Negative 假负):将错误的预测为错误的,即预测正确了。或者说将非A类正确预测为非A类。
FP(Fasle Positive 假负):将错误的预测为正确的,即预测错误了。或者说将其他类错误预测为A类。
TN(True Negative 真负):将正确的预测为错误的,即预测错误了。或者说将A类错误预测为其他类。
2 Precision
Precision精确率,计算方法:
将正确的预测为正确的/(将正确的预测为正确的+将错误的预测为正确的),TP+FP就是表示预测出正确的数量。
所以precision表示当前划分到正样本类别中,被正确分类的比例(即正式正样本所占比例)
3 Accuracy
Accuracy准确率,计算方法:
(将正确的预测为正确的+将错误的预测为错误)/所有样本数量,即成功分类的个数在所有分类的个数所占比例。
所以Accuracy表示当前划分到正样本类别中,被正确分类的比例(即正式正样本所占比例)
4 Recall
recall,召回率
召回率 = 将正确的预测为正确的/(将正确的预测为正确的+将正确的预测为错误的),
当前分到正样本中真实的正样本所占所有正样本的比例
5 F1 scrore
F1分数(F1-score)是分类问题的一个衡量指标 。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。
Precision和Recall的关系
- Precision 和 Recall 的值我们预期是越高越好,因为他们都代表了正确被分类的比例,但是这两个值在某些场景下是存在互斥的。比如仅仅取一个样本,并且这个样本也确实是正样本,那么Precision = 1.0, 然而 Recall 可能就会比较低(在该样本集中可能存在多个样本);相反,如果取所有样本,那么Recall = 1.0,而Precision就会很低了。所以在这个意义上,该两处值需要有一定的约束变量来控制。
- 所以F-Score就是 Precision和 Recall的加权调和平均:其中,当 α = 1时,则 F-Score 即为F1
- 当有多个类别时,我们对各个类别的F1-Score求均值,就是最后的F1-score
6 AUC-ROC
ROC(Receiver Operating Characteristic,受试者工作特征)。ROC曲线的面积就是AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)。
曲线描述的就是召回率与FPR = FP / (FP + TN)之间的关系,召回率前面我们已经介绍过了。FPR可以称之假正率,描述的是将错误的预测为正确的与(错误的预测为正确的+将正确的预测为错误的)
所以ROC描述的就是召回率与假正率之间的关系,ROC曲线就是召回率为x轴,假正率为y轴,AUC就是ROC曲线的面积。