3-模型选择的详细过程-机器学习

    已经清楚了模型选择的理论,接下来探讨实际中,如何选择模型?
任务: 给定假设空间,损失函数,训练数据集,判断给出的各个模型,哪个更优秀

场景一:训练数据集容量足够大。
方案一:使用经验风险最小化ERM策略
推理过程:
大前提: 当训练数据集接近总体数据集时,可以认为经验损失是接近期望损失的。
小前提: 期望损失越小,模型越优秀。
结论:当训练数据集接近总体数据集时,经验损失越小,模型越优秀。【 经验风险最小化(empirical risk minimization,ERM)】
           训练数据集接近总体数据集 ≈ 训练数据集的容量足够大

场景二:训练数据集容量较小。
方案一:在ERM基础上加入表示模型复杂度的正则化项regularizer
推理过程:
    这个时候,便不能再使用场景一的ERM策略了。因为场景一的大前提已经不成立,也就是 当训练数据集较小时,经验损失已经不能代表期望损失了。 因为当训练数据集较小时,使用任何一个模型,都容易产生过拟合问题,导致经验损失很小,对期望损失的代表性变差。
     其逻辑链是这样的:模型越复杂==>过拟合越严重==>得到的经验损失越小==>经验损失越不能代表期望损失==>对由于模型复杂度带来的偏差进行纠正==> 加上表示模型复杂度的正则化项(regularizer)/罚项(penalty term),模型越复杂,正则化项越大。
    正则化项是一个模型复杂程度的增函数。


方案二:重复使用给定的样本数据,做多次学习,然后取平均效果得到最终的模型。
方法内容优点缺点
s折交叉验证法(s-fold cross validation)将样本随机均为K等份,随机选择1份做验证集,剩余K-1份做测试集。这样可以进行K次训练/验证,得到K个模型,最后取均值。  
留一法(leave-one-out,简称LOO)当K=样本容量时,s折交叉验证法退化为留一法。其训练集近似初始数据集,被认为评估结果较为准确样本量大时,开销大
自助法(bootstrapping)对给定样本进行重复抽样,得到一个容量大小一样的样本,作为训练集。
据估计,初始样本中约有30%数据不在新样本中,这部分作为验证集。
多次进行该过程。
有利于集成学习。重复抽样会让新样本的分布不同于初始样本,引入偏差

参考:李航《统计学习方法》

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值