【西瓜书机器学习日记——第三天】
接上篇 第二章 模型评估和选择
2.3 性能度量
衡量模型泛化能力的评价标准,称为性能度量。回归任务最常用的是“均方误差”(mean squared error),以下将介绍分类任务常用的性能度量。
2.3.1 错误率与精度
错误率 E(f,D): 当预测值与实际值不同时,表示预测错误,错误率为预测错误的个数占总样本的比例。
精 度 acc(f,D):当预测值与实际值相同时,表示预测正确,精度为预测正确的个数占总样本的比例。
可知 acc(f,D) = 1 - E(f,D).
2.3.2 查全率、查准率和F1
查准率(precision):所有预测为正例中真正的正例比例。(所有查出来的正例中预测准确的指标,尽可能少查但结果准)
查全率(recall):所有真正的正例被预测为正例的比例。(真正的正例被全部查出来的指标,尽可能多查但结果可不准)
对于二分类,预测结果和实际结果之间的组合划分可为真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)。
查全率R = TP/(TP+FN) 查准率P = TP/(TP+FP)
查准率和查全率是一对矛盾的指标,一般情况下,查准率高时查全率低,查全率高时查准率低,只有在一些简单任务中才会出现查全率和查准率都很高的情况。
P-R曲线:学习器可以将样本按照可能为正例的可能性进行排序,排在最前的是学习器认为最有可能是正例的样本,排在最后的是学习器认为最有可能是反例的样本。按照从前往后的顺序逐个将样本预测为正例,并计算其对应的查全率和查准率,最后以查全率与横轴、查准率为纵轴,绘制成曲线,即为“P-R曲线”,该图为“P-R图”。当学习器A的P-R曲线能完全包含学习器B的P-R曲线时,我们认为学习器A比学习器B在此任务上表现更好。
平衡点(Break-Even Point,BEP):当学习器A和学习器B的P-R曲线发生交叉时,无法很好辨别学习器的好坏,因此引入了平衡点这一度量。平衡点是横轴与纵轴的角平分线与P-R曲线的交点,交点的横坐标更大的学习器更好。
F1度量:平衡点作为度量还是太简单了,更常用的是F1度量。
当任务对查全率与查准率的重视程度不一样时, 。当
等于1时,退化为F1;当
大于1时,查全率R有更大的影响;当
小于1时,查准率P有更大的影响。
2.3.3 ROC与AUC
ROC曲线(Receiver Operating Characteristic):与P-R曲线相似,不同的是,ROC曲线的横轴是“假正例率”(FPR),纵轴是“真正例率”(TPR)
AUC(Area Under ROC Curve): 与P-R曲线相似,当学习器A的ROC曲线能完全包含学习器B的ROC曲线时,我们认为学习器A比学习器B在此任务上表现更好。当学习器A和学习器B的ROC曲线发生交叉时,使用AUC进行判断,即ROC曲线与横轴围成的面积。
2.3.4 代价敏感错误率和代价曲线
代价敏感: 将正例预测为反例、将反例预测为正例在不同的任务中的所带来的代价不同。cost(i,j)表示将第i类预测为第j类的代价,cost(i,i) = 0。
代价曲线:在错误具有非均等代价时,ROC曲线不能描述学习器的期望总体代价,因此引入了代价曲线。 其横轴为正例概率代价,纵轴为归一化代价,ROC曲线的每一个点对应代价平面上的一条直线,所有直线与横轴围成的面积即为学习器的期望总体代价。
正例概率代价
归一化代价 ,p为被实际为正例的样本占总样本的比例。
显然有