集成学习机器学习基础2学习笔记

作业解答

1.偏差和方差

  • 偏差是选择描述问题的模型带来的,选择不同的模型和不同的参数会带来偏差的大小不同,即为了选择一个简单的模型去估计真实函数所带入的误差。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。比如对一个人口增长趋势的一个预测,采用线性回归模型和多项式回归带来的误差的大小,这是来自偏差,是模型本身复杂性决定的。
  • 方差是因为抽样带来的数据集本身的不稳定性,实际上是描述数据集本身的量,比如从一批灯泡里抽样1000个进行质检,如果抽检几次1000个灯泡结果差距很大,那么这是方差带来的结果的差异,来自数据本身。
  • 总而言之,偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。

2.训练误差和测试误差

  • 训练误差是模型在训练集上的表现,测试误差是模型在测试集数据上的表现,一般关注点在于测试误差,也就是模型的泛化性能。
  • 为在测试集上取得较小的误差,使模型具有较好的泛化性能,可以从两方面解决,一是降低偏差,而是降低方差。一般而言,增加模型的复杂度,会增加模型的方差,但是会减少模型的偏差,我们要找到一个方差–偏差的权衡,使得测试均方误差最小。实际上我们很难对实际的测试误差做精确的计算,因此我们要对测试误差进行估计,估计的方式有两种:训练误差修正与交叉验证。
  1. 训练误差修正:这部分可以理解为正则化,我们已经知道,模型越复杂,训练误差越小,测试误差先减后增。因此,我们先构造一个特征较多的模型使其过拟合,此时训练误差很小而测试误差很大,那这时我们加入关于特征个数的惩罚。因此,当我们的训练误差随着特征个数的增加而减少时,惩罚项因为特征数量的增加而增大,抑制了训练误差随着特征个数的增加而无休止地减小。常用的有AIC赤池信息量准则和BIC贝叶斯信息量准则。
  2. 交叉验证是对测试误差的直接估计,常用的是K折交叉验证。

3. 岭回归和Lasso回归

  • 岭回归是在线性回归基础上加上L2正则化因子,通过牺牲线性回归的无偏性降低方差,有可能使得模型整体的测试误差较小,提高模型的泛化能力。
  • Lasso回归是在线性回归上加上L1正则化因子。
  • 两种回归的不同点在于Lasso回归可以使系数为0,可以以此做特征选择,但是岭回归不可使系数为0只能趋近于0,这是由于L1正则化和L2正则化因子的性质决定的。

4.PCA主成分分析

PCA的主要步骤:中心化,求最大化投影方差的投影向量,即求协方差矩阵的特征向量,取前m个特征值的特征向量即可降维。
三维椭球用PCA降维到二维,最大化投影方差即是最大化投影面积,所以投影到二维是椭圆,长轴和短轴与椭球的长轴和短轴相等。

特征简化+网格调参优化

这一部分放在github上了:
https://github.com/zyn6666123/ensemble-learning-note

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值