【百面机器学习】第二章 模型评估

本文深入探讨了机器学习模型的评估指标,包括数值指标如精确率、召回率和F1-Score,曲线指标如P-R和ROC曲线,以及距离指标。此外,介绍了模型评估方法,如留出法、交叉验证和自助法,并讨论了A/B测试在模型验证中的重要性。同时,文章还涉及了过拟合和欠拟合的定义及其缓解策略。
摘要由CSDN通过智能技术生成

目录

一、评估指标

1、数值指标

2、曲线指标

3、距离指标

二、模型评估方法

1、留出法(Holdout)

2、交叉验证(cross-validation)

3、自助法:

三、A/B测试

1、什么是A/B测试:

2、已经有离线评估的各种数据,为什么还要进行A/B测试:

3、应该注意的问题

四、过拟合/欠拟合

1、定义:

2、降低过拟合风险:

3、降低欠拟合风险:

四、超参数调优


一、评估指标

1、数值指标

  • 基本概念
    • TP(True Positive):真阳性,预测为正,实际为正,即H(x_{i}) = 1, y_{i} = 1
    • FP(False Positive): 假阳性,预测为正,实际为负,即H(x_{i})= 1, y_{i} = 0
    • TN(True Negative):真阴性,预测为负,实际为负,即H(x_{i})= 0, y_{i} = 0
    • FN(False Negative):假阴性,预测为负,实际为正,即H(x_{i})= 0, y_{i} = 1
      注: 这四个概念很容易混乱,可以简单认为 真假是针对预测结果正确与否,阳性/阴性是针对预测值。
    • 正样本数(实际为正) :P = TP + FN
    • 负样本数 (实际为负):N = FP + TN
    • 真阳性率 TPR = TP / P,敏感性指标(sensitivtity)
    • 真阴性率 TNR = TN / N ,特异性指标(specificity)

         举个栗子:假设有10位患者,其中7位不是癌症患者(N=7),另外3位是癌症患者(P=3)。医院对这10位患者进行了诊断,诊断出3位癌症患者,其中2(TP)位确实是癌症患者。

         则: P=3, N=7, TP=2, FP=1, TN=6, FN=1

                TPR=2/3

                TNR=6/7

  • 准确率(识别率)(Accuracy)

        预测正确的样本占样本总数的比例

         Acc=\frac{n_{correct}}{n_{total}}=\frac{TP+TN}{P+N} 

         举个栗子:线下评估模型准确率95%,但是线上表现并不好。可能是什么原因:

                  原因可能有很多,比如模型的过拟合,测试集/验证集划分不合理等,评估指标不合理,或者样本集与线上有较大差异等原因。
                  关于准确率这个指标,假设有100个样本,其中99个负样本,即使模型把所有样本都预测为负样本,也能达到99%的准确率。所以说,在样本比例不均衡的情况下,占比较大的样本会是影响准确率的主要因素。

                 为了解决这个问题,我们可以使用平均准确率,即每个类别准确率的算术平均。

                补充两个概念:

                 算术平均:A=\frac{x_{1}+x_{2} + x_{3}+...+x_{n}}{n}

                 几何平均:G=\sqrt[n]{x_{1}\cdot x_{2}\cdot x_{3}\cdot ...\cdot x_{n}}

  • 精确率和召回率
    • 精确率(Precision)

              识别为正样本的样本中,识别正确的比例。对负样本的区分能力

               Precision = \frac{TP}{TP+FP} 

  • 召回率(Recall)

                正样本中被识别正确的比例 ,标识模型对正样本的识别能力

                recall = \frac{TP}{P} (注:与真阳性率TPR定义一致)

  • F\beta -Score
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值