[基本功]分类模型评价标准

混淆矩阵:

预测阳性预测阴性总计
实际阳性TPFNP
实际阴性FPTNN
总计XY n t o t a l n_{total} ntotal
  1. 准确率(accuracy)
    T P + T N n t o t a l = T P + T N T P + T N + F P + F N \frac{TP+TN}{n_{total}}=\frac{TP+TN}{TP+TN+FP+FN} ntotalTP+TN=TP+TN+FP+FNTP+TN
    缺点:无法应对样本不均衡情况。当负样本占99%时,吧所有样本预测为负样本也能获得99%的准确率

  2. 精确率(precision)
    T P X = T P T P + F P \frac{TP}{X}=\frac{TP}{TP+FP} XTP=TP+FPTP

  3. 召回率(recall)
    T P P = T P T P + F N \frac{TP}{P}=\frac{TP}{TP+FN} PTP=TP+FNTP

  4. F1值
    2 ∗ p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l 2*\frac{precision*recall}{precision+recall} 2precision+recallprecisionrecall

  5. ROC曲线(Receiver operating characteristic Curve, 受试者工作特征曲线)

    横坐标:假阳性率, F P R = F P N FPR=\frac{FP}{N} FPR=NFP,负样本中预测为正样本的比例

    纵坐标:真阳性率, T P R = T P P TPR=\frac{TP}{P} TPR=PTP,衡量敏感度,召回率

    绘制:

    法1:不断移动分类器的阈值,计算TPR和FPR标在图中,最后连接

    法2:横坐标刻度间隔设为 1 N \frac1N N1,纵坐标刻度间隔设为 1 P \frac1P P1,根据模型输出结果降序排列,依次遍历样本,每遇到一个正样本就沿纵轴方向绘制一个单位间隔,否则沿横轴绘制一个单位间隔。

    img
  6. AUC(Area under the curve)

    ROC曲线下的面积,沿着横轴做积分即可。实际中ROC曲线都会在 y = x y=x y=x上方,所有AUC一般在0.5和1之间。AUC值越大,说明模型性能越好。

    含义:表示预测的整理排在负例前面的概率。

  7. PR曲线和ROC曲线的区别?

    当正负样本的分布发生变化时,ROC曲线形状基本不变,而P-R曲线一般变化剧烈

    若将表中N,即负样本个数扩大10倍,则对于ROC来说,计算横坐标的分子(FP)和分母(N)都会相应扩大,计算纵坐标的分子(TP)和分母§保持不变,故ROC曲线基本不变。

    而对于P-R曲线,横坐标召回率基本不变,纵坐标精确率的TP和TP+FP只有FP有变动,故会带来较大变化

    ROC曲线可以尽量降低不同测试集带来的干扰,更加客观的衡量模型本身性能。在实际中,正负样本数量往往不平衡,若选择不同测试集,P-R曲线的变化就会非常大,而ROC能更加稳定的反应模型本身的好坏。

    如果研究者希望看到模型在特定数据集上的表现,则P-R曲线更加直观。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值