统计学习导论（二）习题

最新推荐文章于 2022-02-06 17:40:58 发布

鸭鸭鸭鸭鸭鸭

最新推荐文章于 2022-02-06 17:40:58 发布

阅读量4.4k

点赞数 7

分类专栏：统计学习导论文章标签：机器学习统计学

本文链接：https://blog.csdn.net/weixin_52547939/article/details/116494833

版权

本文探讨了统计学习中模型选择的重要性，解释了在不同场景下选择光滑度高或低模型的原因。讨论了偏差与方差的概念，以及它们如何影响训练和测试误差。强调了在追求模型拟合度时避免过拟合的挑战，并提到了参数方法和非参数方法的优缺点。此外，还涉及了特征类型（定量与定性）以及特征相关性在模型构建中的作用。

摘要由CSDN通过智能技术生成

1.概念题

(a) 当样本量n非常大，预测变量数p很小时，这样容易欠拟合，所以一个光滑度更高的学习模型更好。
(b) 当样本量n非常小，预测变量数p很大时，这样容易过拟合，所以一个光滑度更小的学习模型更好。
© 当预测变量与响应变量之间的关系是非线性时，说明光滑度小的模型会容易欠拟合，所以光滑度高的模型更适合。
(d) 在这里，方差是指用一个不同的训练数据集估计f时，估计函数的改变量。一般来说，光滑度越高的统计模型有更高的方差，所以这里选择一个光滑度小的模型。
分类器：变量是定性的
回归模型：变量是定量的
预测是指输入X得到Y
推断是指理解Y是随 $X_{1},X_{2}...X_{p}$ 的函数是怎么变化的
（a）员工人数，产业类型以及CEO工资来和利润的关系：推断问题。需要回归模型
（b）成功和失败两种状态，属于分类问题。需要分类器。
（c）预测问题，需要回归模型
偏差：训练模型得到的样本预测偏离真实值的程度（由算法或者模型本身带来）
方差：如果使用不同的训练数据集进行估计时，f ̂会产生的变化量。不同的训练数据集将导致不同的f ̂，在通常情况下，更灵活的统计方法具有更高的方差。
训练误差：用训练数据集拟合模型计算得到的误差。
测试误差：用测试数据集测试模型计算得到的误差。
不可约误差：未考虑在模型中的影响因素

通常情况下，随着我们使用更灵活的方法，方差会增加，偏差会减少。 这两个量的相对变化率决定了测试MSE是增加还是减少，偏差平方和方差在每个数据集中的变化率不同。当我们增加一类方法的灵活性时**，偏差的下降趋势往往比方差的增加快，这时测试MSE下降**。但是在某些时候，灵活性的增加对偏差的影响很小，但开始显着增加方差，发生这种情况时，测试MSE会增加
随着统计学习方法灵活性的增加，我们观察到训练MSE的单调下降和测试MSE的U形变化，随着模型灵活性的提高，训练MSE将会减少，但是测试MSE可能不会减少，当给定的方法产生的训练MSE较小而测试的MSE较大时，则认为我们过度拟合了数据。

一个光滑度高的回归模型或者分类模型，能够更好的拟合非线性模型，偏差更小。但是模型越光滑，所需要计算的参数就越多，而且容易过拟合，方差更大。当我们更想预测，而不是推断的时候，我们优先考虑光滑度高的模型。

参数方法是一种基于模型估计的两阶段方法。优点是，比较简单，将f的估计问题简化为对一组参数的估计问题。缺点是，选择的模型通常不会与f的真正未知形式匹配，会使预测值误差很大；若拟合更灵活的模型，需要估计更多的参数，则会导致过度拟合。
非参数方法没有对f的函数形式做出明确假设，可以准确地为f拟合更广泛的可能形式。缺点是无法将估计f的问题简化到对少数参数进行估计，所以常常需要大量的观测点。

（a）欧氏距离 $|x|=\sqrt[]{x[1]^2+x[2]^2+…+x[n]^2}$

最低0.47元/天解锁文章

鸭鸭鸭鸭鸭鸭

关注

7
点赞
踩
47

收藏

觉得还不错? 一键收藏
打赏
2
评论
统计学习导论（二）习题

1.概念题(a) 当样本量n非常大，预测变量数p很小时，这样容易欠拟合，所以一个光滑度更高的学习模型更好。(b) 当样本量n非常小，预测变量数p很大时，这样容易过拟合，所以一个光滑度更小的学习模型更好。© 当预测变量与响应变量之间的关系是非线性时，说明光滑度小的模型会容易欠拟合，所以光滑度高的模型更适合。(d) 在这里，方差是指用一个不同的训练数据集估计f时，估计函数的改变量。一般来说，光滑度越高的统计模型有更高的方差，所以这里选择一个光滑度小的模型。分类器：变量是定性的回归模型：变量
复制链接

扫一扫