目录
一、评估指标
1、数值指标
- 基本概念
- TP(True Positive):真阳性,预测为正,实际为正,即
- FP(False Positive): 假阳性,预测为正,实际为负,即
- TN(True Negative):真阴性,预测为负,实际为负,即
- FN(False Negative):假阴性,预测为负,实际为正,即
注: 这四个概念很容易混乱,可以简单认为 真假是针对预测结果正确与否,阳性/阴性是针对预测值。 - 正样本数(实际为正) :P = TP + FN
- 负样本数 (实际为负):N = FP + TN
- 真阳性率 TPR = TP / P,敏感性指标(sensitivtity)
- 真阴性率 TNR = TN / N ,特异性指标(specificity)
举个栗子:假设有10位患者,其中7位不是癌症患者(N=7),另外3位是癌症患者(P=3)。医院对这10位患者进行了诊断,诊断出3位癌症患者,其中2(TP)位确实是癌症患者。
则: P=3, N=7, TP=2, FP=1, TN=6, FN=1
TPR=2/3
TNR=6/7
- 准确率(识别率)(Accuracy)
预测正确的样本占样本总数的比例
举个栗子:线下评估模型准确率95%,但是线上表现并不好。可能是什么原因:
原因可能有很多,比如模型的过拟合,测试集/验证集划分不合理等,评估指标不合理,或者样本集与线上有较大差异等原因。
关于准确率这个指标,假设有100个样本,其中99个负样本,即使模型把所有样本都预测为负样本,也能达到99%的准确率。所以说,在样本比例不均衡的情况下,占比较大的样本会是影响准确率的主要因素。
为了解决这个问题,我们可以使用平均准确率,即每个类别准确率的算术平均。
补充两个概念:
算术平均:
几何平均:
- 精确率和召回率
- 精确率(Precision)
识别为正样本的样本中,识别正确的比例。对负样本的区分能力
- 召回率(Recall)
正样本中被识别正确的比例 ,标识模型对正样本的识别能力
(注:与真阳性率TPR定义一致)