集成学习机器学习基础2学习笔记

最新推荐文章于 2024-08-14 23:30:40 发布

努力学习的废物

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量97

点赞数

文章标签：机器学习 sklearn

本文链接：https://blog.csdn.net/weixin_45536410/article/details/120445249

版权

作业解答

偏差是选择描述问题的模型带来的，选择不同的模型和不同的参数会带来偏差的大小不同，即为了选择一个简单的模型去估计真实函数所带入的误差。偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。比如对一个人口增长趋势的一个预测，采用线性回归模型和多项式回归带来的误差的大小，这是来自偏差，是模型本身复杂性决定的。
方差是因为抽样带来的数据集本身的不稳定性，实际上是描述数据集本身的量，比如从一批灯泡里抽样1000个进行质检，如果抽检几次1000个灯泡结果差距很大，那么这是方差带来的结果的差异，来自数据本身。
总而言之，偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。

训练误差是模型在训练集上的表现，测试误差是模型在测试集数据上的表现，一般关注点在于测试误差，也就是模型的泛化性能。
为在测试集上取得较小的误差，使模型具有较好的泛化性能，可以从两方面解决，一是降低偏差，而是降低方差。一般而言，增加模型的复杂度，会增加模型的方差，但是会减少模型的偏差，我们要找到一个方差–偏差的权衡，使得测试均方误差最小。实际上我们很难对实际的测试误差做精确的计算，因此我们要对测试误差进行估计，估计的方式有两种：训练误差修正与交叉验证。

训练误差修正：这部分可以理解为正则化，我们已经知道，模型越复杂，训练误差越小，测试误差先减后增。因此，我们先构造一个特征较多的模型使其过拟合，此时训练误差很小而测试误差很大，那这时我们加入关于特征个数的惩罚。因此，当我们的训练误差随着特征个数的增加而减少时，惩罚项因为特征数量的增加而增大，抑制了训练误差随着特征个数的增加而无休止地减小。常用的有AIC赤池信息量准则和BIC贝叶斯信息量准则。
交叉验证是对测试误差的直接估计，常用的是K折交叉验证。

PCA的主要步骤：中心化，求最大化投影方差的投影向量，即求协方差矩阵的特征向量，取前m个特征值的特征向量即可降维。
三维椭球用PCA降维到二维，最大化投影方差即是最大化投影面积，所以投影到二维是椭圆，长轴和短轴与椭球的长轴和短轴相等。

这一部分放在github上了：
https://github.com/zyn6666123/ensemble-learning-note

关注