统计学习方法学习笔记 第一章(二)

 

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

训练误差

   第一步得到的训练模型为,训练误差是模型关于训练数据集的平均损失:

其中N是训练样本容量

测试误差

   测试误差是训练模型关于测试数据集的平均损失:

其中,N' 是测试样本容量

测试误差更加重要,训练误差不是很重要,因为测试误差反映的是对未知数据的预测能力。对未来数据的预测能力叫做泛化能力。

当损失函数是0-1损失时,测试误差就变成了误差率(error rate)

这里I为指示函数(Indicator function),即yif(xi) 时为1,否则为0.

相应的,测试数据集上的准确率(accuracy)

显然,rtest+etest=1

1.4.2 过拟合与模型选择

当模型复杂度增大时,训练误差会逐渐减小为0,而测试误差会先减小,随后增大。当选择的模型复杂度过大时,过拟合就会发生。所以,在学习时就要防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

1.5 正则化与交叉验证

为了防止过拟合,就要选择复杂度适当的模型,模型选择的方法主要有正则化和交叉验证。

1.5.1 正则化

正则化就是在特征数量不变的情况下,减少某些θ参数的值,使其对预测结果(y)的贡献较小!

1.5.2 交叉验证

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值