岭回归和套索回归

最新推荐文章于 2024-05-16 20:49:19 发布

xsj2191139968

最新推荐文章于 2024-05-16 20:49:19 发布

阅读量978

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/xsj2191139968/article/details/127603966

版权

岭回归和Lasso回归是解决线性回归中的多重共线性问题的方法。岭回归通过引入正则化项改善计算，但无法使系数为0。Lasso回归则能进行特征选择，通过L1范数惩罚项使不重要变量系数趋于0。在Stata中，lassopack提供了实现Lasso回归的子命令，如lasso2、cvlasso和rlasso。K折交叉验证用于选择最佳调整参数。在实际应用中，Lasso回归通常作为变量筛选的高级工具，适用于变量较多且可能存在多重共线性的情况。

摘要由CSDN通过智能技术生成

岭回归
优点：有显式的解
缺点：对于影响很小的因子的值不能趋近到0

Lasso回归
优点：可以将影响很小的因子的值减到0，更加便于筛选
缺点：没有真实的解，只能逼近和估计解

Stata的使用
在 Stata 中，我们可以安装 lassopack 命令来实现 Lasso 回归，Lassopack 包含三个与 Lasso 相关的子命令（输入 help lassopack 可以查看详情）： ‐ 子命令 lasso2 可进行 Lasso 估计； ‐ 子命令 cvlasso 可进行 K 折交叉验证（k‐fold cross validation）； ‐ 子命令 rlasso 可以估计惩罚项由数据决定或者高维情形（变量维度超过样本数）

K 折交叉验证
我们使用 K 折交叉验证的方法来选择最佳的调整参数。

所谓的 K 折交叉验证，是说将样本数据随机分为 K 个等分。将第 1 个子样本作为 “验证集”（validation set）而保留不用，而使用其余 K-1 个子样本作为 “训练集”（training set）来估计此模型，再以此预测第 1 个子样本，并计算第1个子样本的 “均方预测误差”（Mean Squared Prediction Error）。

其次，将第 2 个子样本作为验证集，而使用其余 K-1 个子样本作为训练集来预测第2个子样本，并计算第 2 个子样本的 MSPE。

以此类推，将所有子样本的 MSPE 加总，即可得整个样本的 MSPE。最后，选择调整参数，使得整个样本的 MSPE 最小，故具有最佳的预测能力

最低0.47元/天解锁文章

xsj2191139968

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
岭回归和套索回归

考虑到作为收缩估计量的 Lasso 存在偏差（bias），上表右边第 2 列汇报了 “Post Lasso” 估计量的结果，即仅使用 Lasso 进行变量筛选，然后扔掉 Lasso 的回归系数，再对筛选出来的变量进行 OLS 回归。（注意：此时的变量可以是标准化前的，也可以是标准化后的，因为lasso只起到变量筛选的目的）（2）对变量使用lasso回归，记录下lasso回归结果表中回归系数不为0的变量，这些变量就是最终我们要留下来的重要变量，其余未出现在表中的变量可视为引起多重共线性的不重要变量。
复制链接

扫一扫