控制过拟合

普通的最小二乘法,当过拟合发生时,没有办法阻止学习过程。

过拟合的根源在于X中有太多的列,解决的方法是去掉X中的一些列,这样就转化为去掉多少列以及哪几列应该去掉的问题。

调整普通最小二乘法瓶颈的方法:前向逐步回归和岭回归。

前向逐步回归就是要找出最佳的特征子集。如果把所有特征的1列-n列子集全部计算一次,会花费大量时间。所以从1列子集开始,找到效果最佳的那一列特征,接着寻找与其组合与效果最佳的第2列特征,而不用评估所有2列子集。以此类推。引入的特征个数称作复杂度参数。复杂度更高的模型会有更多的自由参数,相对于低复杂度的模型更容易对数据产生过拟合。模型越复杂,泛化能力越差。在同等情况下,倾向于选择不太复杂的模型。最佳经验是如果属性添加后带来的性能提升只达到小数点后第4位,那么保守起见,可以将这样的属性移除掉。

sklearn包中的岭回归模型:

from sklearn import linear_model

ridgemodel=linear_model.Ridge(alpha=alph)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值