周志华机器学习--模型评估与选择

周志华机器学习–模型评估与选择

第一章 绪论
第二章 模型评估与选择
第三章 线性模型
第四章 决策树
第五章 支持向量机
第六章 神经网络
第七章 贝叶斯分类器
第八章 集成学习和聚类



一、泛化能力

泛化能力强:能很好适用于unseen instance
e.g., 错误率低、精度高、召回能力强(以上指标视具体任务和使用者需求而异)

二、过拟合和欠拟合

  • 泛化误差:在“未来”样本上的误差

  • 经验误差:在训练集上的误差,亦称为“训练误差”
    Q:是否泛化or经验误差越小越好?
    A:不是!

  • 过拟合(overfitting):经验误差过小,模型学习到了训练数据满足的特有性质,但这些性质不是一般规律

  • 欠拟合(underfitting):经验误差过大,模型没有学习到足够的一般规律

SO 机器学习重要的问题:用什么方法缓解overfitting?什么情况下此方法会失效?

三、三大问题

模型选择三大关键问题:

  • 如何获得测试结果?–评估方法
  • 如何评估性能优劣?–性能度量
  • 如何判断实质差别?–比较检验

四、评估方法

** 留出法(hold-out)**
在这里插入图片描述

  • 存在问题:尽管随机取多次,可能仍会遗漏某些数据
    k-折交叉验证法可避免这个问题

交叉验证法(cross validation)
在这里插入图片描述

  • 但因为切分可能存在偏差,可以做10次不同的切分,就成了10*10 CV, 也是做100次试验

  • 留一法 (leave-one-out):M99逼近M100是否比M90逼近M100更准确呢? NO! 因为no free lunch

自助法(bootstrp)

请添加图片描述

  • 不出现的样本当作测试集
  • 优点:既能逼近M100,还能留出样本做测试
  • 最大的缺陷:数据分别有所改变(适用于数据分布不重要,或数据量不够的情况

五、调参与验证集

请添加图片描述

  • 验证集–从训练集分出一部分用以调整参数
  • 调参数的过程也是训练的过程,不能用测试集进行调参,因为测试集里的数据一定要是训练时没有出现的数据

六、性能度量

性能度量反映了任务需求
请添加图片描述
请添加图片描述
请添加图片描述
查准率:当西瓜收购公司去瓜摊收购西瓜时希望保证收到的瓜中坏瓜尽可能的少
查全率:当西瓜收购公司去瓜摊收购西瓜时希望把好瓜都收走
请添加图片描述
F1度量结合了P和R:当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少
F1度量使较小的值不被忽视

七、比较检验

在某种度量下取得的评估结果不能直接比较以评判优劣,因为:

  • 测试性能不等于泛化应能
  • 测试性能随着测试集的变化而变化
  • 很多机器学习算法本身具有一定的随机性

机器学习–“概率近似正确”

请添加图片描述

  • 比较两模型在每次测试error的差值,配对t检验(适用于模型采用k折交叉验证的评估方法,需要用到模型评估时k折交叉验证的k个结果)
  • 基于列联表,卡方检验
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值