学习日记

【西瓜书机器学习日记——第三天】         

  接上篇   第二章 模型评估和选择

   2.3 性能度量

     衡量模型泛化能力的评价标准,称为性能度量。回归任务最常用的是“均方误差”(mean squared error),以下将介绍分类任务常用的性能度量。

   2.3.1    错误率与精度

      错误率 E(f,D): 当预测值与实际值不同时,表示预测错误,错误率为预测错误的个数占总样本的比例。

      精    度 acc(f,D):当预测值与实际值相同时,表示预测正确,精度为预测正确的个数占总样本的比例。

         可知 acc(f,D)  =  1 - E(f,D).

   2.3.2   查全率、查准率和F1

       查准率(precision):所有预测为正例中真正的正例比例。(所有出来的正例中预测确的指标,尽可能少查但结果准)

       查全率(recall):所有真正的正例被预测为正例的比例。(真正的正例被出来的指标,尽可能多查但结果可不准)

   对于二分类,预测结果和实际结果之间的组合划分可为真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)。

                       

           查全率R = TP/(TP+FN)                   查准率P = TP/(TP+FP)

    查准率和查全率是一对矛盾的指标,一般情况下,查准率高时查全率低,查全率高时查准率低,只有在一些简单任务中才会出现查全率和查准率都很高的情况。

    P-R曲线:学习器可以将样本按照可能为正例的可能性进行排序,排在最前的是学习器认为最有可能是正例的样本,排在最后的是学习器认为最有可能是反例的样本。按照从前往后的顺序逐个将样本预测为正例,并计算其对应的查全率和查准率,最后以查全率与横轴、查准率为纵轴,绘制成曲线,即为“P-R曲线”,该图为“P-R图”。当学习器A的P-R曲线能完全包含学习器B的P-R曲线时,我们认为学习器A比学习器B在此任务上表现更好。

   平衡点(Break-Even Point,BEP):当学习器A和学习器B的P-R曲线发生交叉时,无法很好辨别学习器的好坏,因此引入了平衡点这一度量。平衡点是横轴与纵轴的角平分线与P-R曲线的交点,交点的横坐标更大的学习器更好。

    F1度量:平衡点作为度量还是太简单了,更常用的是F1度量。    \LARGE F1 = \frac{2*P*R}{P+R}        \LARGE \frac{1}{F1} =\frac{1}{2}\left ( \frac{1}{P}+ \frac{1}{R} \right )   

                   当任务对查全率与查准率的重视程度不一样时,  \LARGE F\beta = \frac{(\beta ^{2}+1)*P*R}{\beta^{2} *P+R}  。当\LARGE \beta 等于1时,退化为F1;当\LARGE \beta大于1时,查全率R有更大的影响;当\LARGE \beta小于1时,查准率P有更大的影响。

2.3.3 ROC与AUC

     ROC曲线(Receiver Operating Characteristic):与P-R曲线相似,不同的是,ROC曲线的横轴是“假正例率”(FPR),纵轴是“真正例率”(TPR)

                    \LARGE TPR = \frac{TP}{TP+FN}                 \LARGE FPR = \frac{FP}{FP+TN}

     AUC(Area Under ROC Curve): 与P-R曲线相似,当学习器A的ROC曲线能完全包含学习器B的ROC曲线时,我们认为学习器A比学习器B在此任务上表现更好。当学习器A和学习器B的ROC曲线发生交叉时,使用AUC进行判断,即ROC曲线与横轴围成的面积。

2.3.4 代价敏感错误率和代价曲线

     代价敏感: 将正例预测为反例、将反例预测为正例在不同的任务中的所带来的代价不同。cost(i,j)表示将第i类预测为第j类的代价,cost(i,i) = 0。

     代价曲线:在错误具有非均等代价时,ROC曲线不能描述学习器的期望总体代价,因此引入了代价曲线。 其横轴为正例概率代价,纵轴为归一化代价,ROC曲线的每一个点对应代价平面上的一条直线,所有直线与横轴围成的面积即为学习器的期望总体代价。

            正例概率代价       \LARGE P(+)cost = \frac{p*cost(0,1)}{p*cost(0,1)+(1-p)*cost(1,0)}                           

            归一化代价     \LARGE cost_{norm} = \frac{FNR*p*cost(0,1)+FPR*(1-p)*cost(1,0)}{p*cost(0,1)+(1-p)*cost(1,0)}   ,p为被实际为正例的样本占总样本的比例。

                          显然有    \LARGE cost_{norm}=FPR*(1-P(+))+FNR*P(+)

                          

                                                      

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值