一、实验说明
岭回归和LASSO回归的原理就是在线性回归的基础上添加了2范数和1范数的惩罚项。这两个模型的关键点是找到一个合理的lambda系数,来平衡模型 的方差和偏差,从而得到比较符合实际的回归系数。
二、实验过程
1. 数据预处理/数据清洗
加载相关数据包:
install.packages("caret")
library(caret)
library(glmnet)
install.packages("ISLR")
library(ISLR)
处理哑变量:
dummies <- dummyVars(~League+Division+NewLeague, data = Hitters)
dummies <- predict(dummies, newdata = Hitters)
将原数据集与哑变量数据合并:
Hitters_dummy <- cbind(Hitters, dummies)
删除缺失值:
Hitters_dummy <- na.omit(Hitters_dummy)
删除无关变量:
Hitters_dummy <- subset(Hitters_dummy,
select = -c(League,Division,NewLeague,League.N,Division.W,NewLeague.N))
然后就可以基于清洗过后的数据集进行建模。
在建立模型之前将数据拆分为训练集和测试集&