统计学习导论(六)线性模型选择与正则化——习题

本篇博客探讨了线性模型选择,包括最佳子集选择、Lasso和Ridge回归,以及它们在训练和测试RSS上的表现。同时,分析了不同方法的灵活性、偏差和方差。此外,还讨论了正则化参数对模型的影响,并通过实例展示了Lasso和Ridge回归的优化过程。
摘要由CSDN通过智能技术生成

(a)
最佳子集选择具有最小的训练 RSS,因为其他两种方法确定模型的路径依赖于它们在迭代到第 k 个模型时首先选择的预测变量。
(b)
最佳子集选择可能具有最小的测试 RSS,因为它考虑了比其他方法更多的模型。 但是,其他模型可能会更幸运地选择更适合测试数据的模型。
(c)
i. True.
ii. True.
iii. False.
iv. False.
v. False.

(a)lasso
iii. 由于方差较小,偏差较大,因此灵活度较低且预测效果更好
(b)Ridge regression
iii. 由于方差较小,偏差较大,因此灵活度较低且预测效果更好
(c)非线性模型
ii.更灵活、更少偏差、更多差异

(a)
iv. 稳定减小:s从0开始增加,所有β从0增加至其最小二乘估计值。0时训练误差最大,稳定减小至普通最小二乘RSS。
(b)
ii. 最初减小,然后开始增加,图像呈现一个U形。s=0时,所有β=0,该模型极其简单,具有很高的测试RSS。随着s增加,β开始变为非零值,模型开始较好地拟合数据,因此测试RSS减少。
(c)
iii. 稳定增长。当s=0,模型有效地预测了一个常数并且几乎没有方差;随着s增加,模型中更多β开始增加,此时β高度依赖训练数据,从而增加了方差。
(d)
iv. 稳定减小:当s=0,该模型有效地预测了一个常数,因此预测值与实际值相差甚远,因此偏差很高。随着 s 的增加,更多的 β变为非零,因此模型继续更好地拟合训练数据。 因此,偏差减少了。
(e)
v. 保持不变。根据定义,不可约误差与模型无关,因此无论 s 的选择如何,都保持不变。

(a)
iii. 稳定增长。λ从0开始增加,所有β 从最小二乘估计值减少到 0。最小二乘估计的训练误差最小,随β减小到0稳定增长。
(b)
ii. 最初减小,然后开始增加,图像呈现一个U形。λ=0时,所有β都有其最小二乘估计值。在这种情况下,模型试图很难适应训练数据,因此测试 RSS 很高。增加 λ ,β开始减少到零,并且一些过度拟合也减少了。 因此,测试 RSS 最初下降。 最终,随着 β接近 0,模型变得过于简单,测试 RSS 增加。
(c)
iv. 稳定减小:当λ=0,所有β都有其最小二乘估计值。实际估计在很大程度上取决于训练数据,因此方差很大。随着 λ增加,β开始减少,模型变得更简单。 在 λ 接近无穷大的极限情况下,所有 β都减少到零,模型预测一个常数并且没有方差。
(d)
iii. 稳定增长。当λ=0,所有β有它们的最小二乘估计值,因此偏差最小。随着 λ 增加,β 开始向0减小,模型对训练数据的拟合不太准确,因此偏差增加。 在 λ 接近无穷大的极限情况下,模型预测一个常数,因此偏差最大。
(e)
v. 保持不变。根据定义,不可约误差与模型无关,因此无论 λ 的选择如何,都保持不变。

(a)
岭回归模型回归系数最优化的一般形式:
最小化: ∑ i = 1 n ( y i − β ^ 0 − ∑ j = 1 p β ^ j x j ) 2 + λ ∑ i = 1 p β ^ i 2 \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\sum_{j=1}^{p} \hat{\beta}_{j} x_{j}\right)^{2}+\lambda \sum_{i=1}^{p} \hat{\beta}_{i}^{2} i=1n(yiβ^0j=1pβ^jxj)2+λi=1pβ^i2
β ^ 0 = 0 \hat{\beta}_{0}=0 β^0=0, n = p = 2 n=p=2 n=p=2则:
( y 1 − β ^ 1 x 11 − β ^ 2 x 12 ) 2 + ( y 2 − β ^ 1 x 21 − β ^ 2 x 22 ) 2 + λ ( β ^ 1 2 + β ^ 2 2 ) \left(y_{1}-\hat{\beta}_{1} x_{11}-\hat{\beta}_{2} x_{12}\right)^{2}+\left(y_{2}-\hat{\beta}_{1} x_{21}-\hat{\beta}_{2} x_{22}\right)^{2}+\lambda\left(\hat{\beta}_{1}^{2}+\hat{\beta}_{2}^{2}\right) (y1β^1x11β^2x12)2+(y2β^1x21β^2x22)2+λ(β^12+β^22)
(b)
假设 x 11 = x 12 = x 1 x_{11}=x_{12}=x_{1} x11=x12=x1, x 21 = x 22 = x 2 x_{21}=x_{22}=x_{2} x21=x22=x2,对 β ^ 1 \hat{\beta}_{1} β^1 β ^ 2 \hat{\beta}_{2} β^2取上述表达式的导数并将它们设置为0发现:
β ^ ∗ 1 = x 1 y 1 + x 2 V 2 − β ∗ 2 ( x 1 2 + x 2 2 ) λ + x 1 2 + x 2 2 \hat{\beta}^{*}{ }_{1}=\frac{x_{1} y_{1}+x_{2 V_{2}}-\beta^{*} 2\left(x_{1}^{2}+x_{2}^{2}\right)}{\lambda+x_{1}^{2}+x_{2}^{2}} β^1=λ+x12+x22x1y1+x2V2β2(x12+x22)
β ^ 2 = x 1 y 1 + x 2 y 2 − β ^ ∗ 1 ( x 1 2 + x 2 2 ) λ + x 1 2 + x 2 2 \hat{\beta}_{2}=\frac{x_{1} y_{1}+x_{2} y_{2}-\hat{\beta}^{*} 1\left(x_{1}^{2}+x_{2}^{2}\right)}{\lambda+x_{1}^{2}+x_{2}^{2}} β^2=λ+x12+x22x1y1+x2y2β^1(x12+x22)
这些表达式中的对称性表明 β ^ 1 \hat{\beta}_{1} β^1= β ^ 2 \hat{\beta}_{2} β^2
(c)
与岭回归相似
最小化: ( y 1 − β ^ 1 x 11 − β ^ 2 x 12 ) 2 + ( y 2 − β ^ 1 x 21 − β ^ 2 x 22 ) 2 + λ ( ∣ β ^ 1 ∣ + ∣ β ^ 2 ∣ ) \left(y_{1}-\hat{\beta}_{1} x_{11}-\hat{\beta}_{2} x_{12}\right)^{2}+\left(y_{2}-\hat{\beta}_{1} x_{21}-\hat{\beta}_{2} x_{22}\right)^{2}+\lambda\left(\left|\hat{\beta}_{1}\right|+\left|\hat{\beta}_{2}\right|\right) (y1β^1x11β^2x12)2+(y2β^1x21β^2x22)2+λ(β^1+β^2)
(d)
这是上述 c 中方程解的几何解释。
我们使用lasso约束的替代形式 ∣ β ^ 1 ∣ + ∣ β ^ 2 ∣ < s \left|\hat{\beta}_{1}\right|+\left|\hat{\beta}_{2}\right|<s β^1+β^2<s
Lasso 约束采用以上形式,绘制时采用以原点 (0,0) 为中心的菱形形状。
考虑平方优化约束 ( y 1 − β ^ 1 x 11 − β ^ 2 x 12 ) 2 + ( y 2 − β ^ 1 x 21 − β ^ 2 x 22 ) 2 \left(y_{1}-\hat{\beta}_{1} x_{11}-\hat{\beta}_{2} x_{12}\right)^{2}+\left(y_{2}-\hat{\beta}_{1} x_{21}-\hat{\beta}_{2} x_{22}\right)^{2} (y1β^1x11β^2x12)2+(y2β^1x21β^2x22)2
利用 x 11 = x 12 , x 21 = x 22 , x 11 + x 21 = 0 , x 12 + x 22 = 0 x_{11}=x_{12}, x_{21}=x_{22}, x_{11}+x_{21}=0, x_{12}+x_{22}=0 x11=x12,x21=x22,x11+x21=0,x12+x22=0 y 1 + y 2 = 0 y_{1}+y_{2}=0 y1+y2=0简化为:
最小化2 ( y 1 − ( β ^ 1 + β ^ 2 ) x 11 ) 2 \left(y_{1}-\left(\hat{\beta}_{1}+\hat{\beta}_{2}\right) x_{11}\right)^{2} (y1(β^1+β^2)x11)2
这个优化问题有一个简单的解决方案: β ^ 1 + β ^ 2 = y 1 x 11 \hat{\beta}_{1}+\hat{\beta}_{2}=\frac{y_{1}}{x_{11}} β^1+β^2=x11y1。这是一条平行于 Lasso-diamond 边缘的线 β ^ 1 + β ^ 2 = s \hat{\beta}_{1}+\hat{\beta}_{2}=s β^1+β^2=s
现在原始lasso优化问题的解决方案是函数 ( y 1 − ( β ^ 1 + β ^ 2 ) x 11 ) 2 \left(y_{1}-\left(\hat{\beta}_{1}+\hat{\beta}_{2}\right) x_{11}\right)^{2} (y1(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸭鸭鸭鸭鸭鸭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值