机器学习基本概念——模型评估与选择

本文深入探讨了模型评估的关键概念,包括误差、训练、泛化、模型容量、过拟合和欠拟合。介绍了模型选择的重要性,并详细阐述了留出法、交叉验证法和自助法等评估方法的原理、优缺点及适用场景。同时,讨论了性能度量如均方误差、错误率、精度、查准率、查全率和ROC曲线等,以及聚类算法的评估指标。最后,讲解了假设检验在模型比较中的应用,强调了偏差、方差和噪声在模型性能分析中的角色。
摘要由CSDN通过智能技术生成

模型评估与选择

  • 误差(Error):是模型的预测输出值与真实值之间的差异
  • 训练(Training):通过已知的样本数据进行学习,从而得到模型的过程
  • 训练误差(Training Error):模型作用于训练集时的误差
  • 泛化(Generalize):由具体的、个别的扩大为一般的,即从特殊到一般,称为泛化。对机器学习的模型来讲,泛化是指模型作用于新的样本数据(非训练集)。
  • 泛化误差(Generalization Error):模型作用于新的样本数据时的误差
  • 模型容量(Model Capacity):是指其拟合各种模型的能力。
  • 过拟合(Overfitting):是某个模型在训练集上表现很好,但是在新样本上表现很差。模型将训练集的特征学习的太好,导致一些非普遍规律被模型接纳和体现,从而在训练集上表现好,但是对于新样本表现差。反之称为欠拟合(Underfitting),即模型对训练集的一般性质学习较差,模型对于训练集时表现不好。
  • 模型选择(Model Selection):针对某个具体的任务,通常会有多种模型可供选择,对同一个模型也会有多组参数,通过分析、评估模型的泛化误差,选择泛化误差最小的模型。
    请添加图片描述
模型的评估方法
  • 评估思路:通过实验测试,对模型的泛化误差进行评估,选出泛化误差最小的模型。待测数据集全集未知,使用测试集进行泛化测试,测试误差(Testing Error)即为泛化误差的近似。

    • 测试集和训练集尽可能互斥
    • 测试集和训练集独立同分布
  • 留出法(Hold-out):将已知数据集分成两个互斥的部分,其中一个部分用来训练模型,另一部分用来测试模型,评估其误差,作为泛化误差的估计。

    • 两个数据集的划分要尽可能保持数据分布一致性,避免因数据划分过程引入人为的偏差
    • 数据分割存在多种形式会导致不同的训练集、测试集划分,单此留出法结果往往存在偶然性,其稳定性较差,通常会进行若干次随机划分、重复实验评估取平均值最为评估结果
  • 交叉验证法(Cross Validation):将数据集划分k个大小相似的互斥的数据子集,子集数据尽可能保证数据分布的一致性(分层采样),每次从中选取一个数据集作为测试集,其余用作训练集,可以进行k次训练和测试,得到评估均值。该验证方法也称为k折交叉验证(k-fold Cross Validation)。使用不同的划分,重复p次,称为p次k折交叉验证。

  • 留一法(Leave-Out-Out,LOO):是k折交叉验证的特殊形式,将数据集分成两个,其中一个数据集的记录条数为1,作为测试集使用,其余记录作为训练集训练模型。训练出的模型和使用全部数据集训练得到的模型相近,其评估结果比较准确。缺点是当数据集较大时,训练次数和计算规模较大。

  • 自助法(Bootstrapping):是一种产生样本的抽样方法,其实质是有放回的随机抽样。即从已知数据集中随机抽取一条记录,然后将该记录放入测试集同时放回原数据集,继续下一次抽样,直到测试集中的数据条数满足要求。

    • 假设已知数据集D含有n条,采用自助法得到一个记录条数为n的测试集T。D中的一些数据会在T中出现多次,还有一些数据不会出现。
    • 估算一下经过n次有放回的采样后,大概多少记录未被选中:
      • 某一次具体的采样,一条数据被选中的概率是1/n,未被选中的概率是1-1/n

      • 连续n次采样均为被选中的概率为:(1-1/n)^n,取极限:请添加图片描述

      • 通过有放回的抽样获得的训练集去训练模型,不存在训练集中的数据(总数量的1/3强)去用于测试,这样的测试结果被称作包外估计(Out-of-Bag Estimate,OOB)

  • 几种方法的适用场景

    • 留出法:
      • 实现简单、方便,在一定程度上能评估泛化误差
      • 测试集和训练集分开,缓解了过拟合
      • 一次划分,评估结果偶然性大
      • 数据被拆分后,用于训练、测试的数据更少了
    • 交叉验证法(留一法):
      • k可以根据实际情况设置,充分利用了所有样本
      • 多次划分,评估结果相对稳定
      • 计算比较繁琐,需要进行k次训练和评估
    • 自助法:
      • 样本量较小时可以通过自助法产生多个自助样本集,且有约36.8%的测试样本
      • 对总体的理论分布没有要求
      • 无放回抽样引入了额外的偏差
    • 几种方法的选择:
      • 对已知数据集数量充足时,通常采用留出法或者k折交叉验证法
      • 对于已知数据集较小且难以有效划分训练集/测试集的时候,采用自助法
      • 对于已知数据集较小且可以有效划分训练集/测试集的时候,采用留一法
  • 性能度量(Performance Measure):评价模型泛化能力的标准。对于不同的模型,有不同的评价标准,不同的评价标准将导致不同的评价结果。模型的好坏是相对的,取决于当前任务需求的完成情况。

    • 回归模型的性能度量通常选用均方误差(Mean Squared Error)。给定样例集模型在这里插入图片描述
      ,模型为f,其性能度量均方误差为:在这里插入图片描述

    • 分类算法常用的性能度量:

      • 错误率:分类错误的样本占总样本的比例,其公式为:在这里插入图片描述

      • 精度:分类正确的样本占总样本数的比例,其公式为:在这里插入图片描述

      • 查准率:预测结果为正的样本中实际值也为正的比例

      • 查全率:实际值为正的样本中被预测为正的样本的比例

      • P-R曲线:查准率-查询率曲线

      • 混淆矩阵:将预测分类结果和实际分类结果做成矩阵的形式显示

      • 在这里插入图片描述
        :β值的不同体现了对查全率和查准率的不同倾向,其公式为:在这里插入图片描述

      • 受试者特征曲线(ROC)和曲线下的面积(AUC):TPR-FPR曲线(真正利率-假正利率曲线)

      • 代价曲线:不同类型的预测错误对结果影响不同而增加的代价(cost),绘制在这里插入图片描述
        曲线

  • 聚类算法常用的性能度量

    • 外部指标(External Index):将聚类结果同某个参照模型进行比较

      • Jaccard系数(Jaccard Coefficient,JC):在这里插入图片描述

      • FM指数(Fowlkes and Mallows Index,FMI):在这里插入图片描述

      • Rand指数(Rand Index,RI):在这里插入图片描述

    • 内部指标(Internal Index):不使用参考模型直接考察聚类效果

      • DB指数(Davise-Bouldin Index,DBI):在这里插入图片描述

      • Dunn指数(Dunn Index,DI):在这里插入图片描述

  • 模型比较:选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。存在以下问题:

    • 模型评估得到的是测试集上的性能,非严格意义上的泛化性能,两者并不完全相同
    • 测试集的性能与样本选取关系很大,不同的划分,测试结果不同,比较缺乏稳定性
    • 很多模型本身有随机性,即使参数和数据集不同,其运行结果也存在差异
    • 统计假设检验(Hypothesis Test):实现对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同是纯属机会变异(因为随机误差导致的不同),还是两者确实不同。畅通的假设检验方法有t-检验法,χ2检验法(卡方检验),F-检验法等。
    • 基本思想:
      • 从样本推断整体
      • 通过反证法推断假设是否成立
      • 小概率事件在一次检验中基本不发生
      • 不轻易拒绝原假设
      • 通过显著性水平定义小概率事件不可能发生的概率
      • 全称命题只能被否定而不能被证明
  • 假设检验的步骤
    在这里插入图片描述

  • 根据具体的问题,建立假设:

    • 原假设(Null Hypothesis):搜集证据希望推翻的假设,记作H0
    • 备择假设(Alternative Hypothesis):搜集证据予以支持的假设,记作H1
    • 假设的形式:
      • 双尾检验:在这里插入图片描述
        不等于、有差异
      • 左侧单尾检验:在这里插入图片描述
        降低、减少
      • 右侧单尾检验:在这里插入图片描述
        提高、增加
  • 确定检验水准:检验水准(Size of a Test):又称显著性水平(Significance Level),记作α,是指原假设正确,但最终被拒绝的概率。在做检验的过程中,会犯两种错误:

    • 原假设为真,被拒绝,称作第一类错误,其概率记作α,即为显著性水平,通常取值为0.05、0.025、0.01等
    • 原假设为假,被接受,称作第二类错误,其概率记作β,即为检验功效(power of a test)
  • 构造统计量:根据资料类型、研究设计方案和统计推断的目的,选用适当检验方法和计算相应的统计量,常见的检验方法:

    • t检验:小样本(<30),总体标准差σ未知的正态分布
    • F检验:即方差分析,检验两个正态随机变量的总体方差是否相等的一种假设检验方法
    • Z检验:大样本(>=30)平均值差异性检验,又称u检验
    • χ2检验:即卡方检验,用于非参数检验,主要是比较两个及两个以上样本率以及两个分类变量的关联性分析
      在这里插入图片描述
  • 关于p值:

    • 用来判定假设检验结果的参数,和显著性水平α相比
    • 在原假设为真的前提下出现观察样本以及更极端情况的概率
    • 如果p值很小,说明原假设出现的概率很小,应该拒绝,p值越小,拒绝假设的理由越充足
  • 得到结论:

    • 如果p值小于等于显著性水平α,表明x小概率事件发生,拒绝原假设
    • 统计量的值如果落在拒绝域内或者临界值,则拒绝原假设,落在接受域内则不能拒绝原假设
  • 假设检验在模型比较中的应用,以一元线性回归为例,可以使用假设检验做出如下比较和判断:

    • 回归系数的显著性检验:在这里插入图片描述

      • 检验自变量x对因变量y的影响程度是否显著

      • 假设误差ε满足均值为0的正态分布,原假设:在这里插入图片描述
        备择假设:在这里插入图片描述

      • 使用T检验,如果原假设成立,则x和y并无线性关系

    • 回归方程的显著性检验:在这里插入图片描述

      • 根据平方和分解式从回归效果检验回归方程的显著性

      • 原假设:在这里插入图片描述
        备择假设:在这里插入图片描述

      • 使用F检验,如果原假设成立,则说明回归方程不显著,该方程并无实质意义

    • 相关系数的显著性检验

      • 检验两变量之间是否真正相关,或两个相关系数之间的差异是否显著
      • 原假设:在这里插入图片描述
        备择假设:在这里插入图片描述
  • 偏差(Bias):描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上你和的好不好。

  • 方差(Variance):模型每一次输出的结果与输出期望之间的误差,即模型的稳定性。

  • 噪声(Noise):为真实标记与数据集中的实际标记间的偏差。通常由多种因素综合影响造成,不可去除。

  • 偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力

  • 方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响

  • 噪声表达了在当前任务上的任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
    在这里插入图片描述

  • 偏差:体现最终结果和实际结果的差异,偏差越小,和真实结果越接近

  • 方差:体现的是整体水平波动,方差越小,结果稳定性越好

  • 期望的模型结果为:低偏差,低方差
    在这里插入图片描述

  • 偏差体现的是拟合程度的优劣,通常模型越复杂,偏差越小。当偏差较大时,即预期输出和实际结果偏离较大,称之为欠拟合。

  • 方差体现的是模型的稳定程度。通常模型越简单,方差越小。当方差较大时,模型不稳定,即对一些新数据的预测不稳定。偏差小,方差大的情况即为过拟合

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值