过拟合的解决方法

数据挖掘的实际工程中,常常出现模型在训练数据集上的效果好,而在测试集上的效果差的情况,也就是模型的泛化能力很差,这就是常说的过拟合。此处给出几种常见的过拟合解决方法。

1、降维

   在样本不变的情况下,随着维数的增加,样本空间越来越稀疏。假设样本为100,每个特征的宽度为5,则在维数为2时,样本空间的密度为100/(5 * 5) = 4,而当维数为3时,样本空间的密度为 100/(5 * 5 * 5) = 0.8,这时的样本空间的密度就降低了。

2、增加样本数量

   跟方法1的效果一样,在特征不增加的情况下,增加样本的数量,就相当于增加了样本密度,能有效的防止过拟合。

3early stop(提前结束,跟overtrain相反)

  可以适当的调整训练结束的条件,如适当增大程序终止的误差值。

4、正则化

   效果与方法3类似,但思想不同,正则化是在当模型变得更复杂时,加入一定的惩罚,使得模型不会过分的拟合训练数据而变得复杂。

5、交叉验证

   严格来讲,交叉验证不是一种防止过拟合的方法,但是交叉验证是一种很好的检验过拟合的方法。常用的交叉验证有S-折交叉验证和留一交叉验证(后者是前者的特例)。

6、更换模型

当然,在条件允许的情况下,可以考虑将复杂的模型更换为简单的模型。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值