模型选择、欠拟合和过拟合

训练误差(training error):模型在训练数据集上表现出的误差。

泛化误差(generalization error):模型在任意一个测试数据样本上表现出的误差的期望,常常通过测试数据集上的误差来近似

机器学习模型应该关注泛化误差。


模型选择(model selection)

1. 验证数据集(validation set):预留一部分在训练数据集和测试数据集以外的数据进行模型选择 ,例如我们可以从给定的训练集中选取一小部分作为验证集,剩余部分作为真正的训练集。

2. k折交叉验证(k-fold cross-validation):由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈,并且人们发现用同一数据集,既进行训练,又进行模型误差估计,对误差估计的很不准确,这就是所说的模型误差估计的乐观性。为了克服这个问题,提出了交叉验证:我们把训练数据集分割成k个不重合的子数据集,然后我们做k次模型训练和验证。每一次我们使用一个子数据集验证模型,并使用其他k-1个子数据集来训练模型。最后,我们对这k次训练误差和验证误差分别求平均。


欠拟合和过拟合

欠拟合(underfitting):模型无法得到较低的训练误差

过拟合(overfitting):模型的训练误差远小于其在测试集上的误差

  • 造成过拟合和欠拟合的主要原因是模型复杂度训练数据集的大小。

模型复杂度:

1. 给定训练数据集,如果模型的复杂度过低,很容易出现欠拟合。

2. 如果模型的复杂度过高,容易出现过拟合。

训练数据集大小:

一般来说,训练数据集中样本过少(特别是比模型参数数量更少时),过拟合更容易发生。

测试如下:

1. 正常拟合,虽然这里测试集上的误差比训练误差还好

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值