目录
总结:岭回归和lasso回归是为了解决线性回归任务中非满秩矩阵不能唯一解的问题。
1.交叉验证法
深刻理解训练集,验证集,测试集概念:
训练集:训练集是机器学习模型用于训练和学习的数据集。通常情况下,训练集是原始数据集的一部分,用于训练模型的参数。模型通过训练集来学习数据的特征,并产生一个模型,以便在之后的预测中使用。
验证集:验证集是用于评估模型性能的数据集。它通常是从原始数据集中划分出来的,用于在训练过程中调整模型的参数和超参数,以提高模型的性能。验证集的作用是帮助开发人员调整模型,避免模型过拟合或欠拟合。
测试集:测试集是用于评估模型最终性能的数据集。它通常是从原始数据集中划分出来的,与训练集和验证集互不重叠。测试集的作用是评估模型在未见过的数据上的性能,并判断模型是否足够准确和鲁棒。
举例:从交叉验证去理解,因为数据量有限时,数据非常珍贵,想要充分利用,举个例子,假设把训练集分成10份,每次从中选取九份做训练集,一份做验证集(另一种意义上的测试集),这种分类可以做十次,最后取验证集结果的平均值(应该这样理解),作为训练结果。
2.岭回归
背景:然任务中(X^TX)往往不是满秩矩阵或者某些列之间的线性相关性比较大,例如存在许多任务中,会出现变量数(属性数)远超过样例数,导致 X 的列数多于行数,(X^TXX) 显然不满秩,即 X^TXX) 的行列式接近于0,即接近于奇异,此时计算是误差会很大,可解出多个θ(有用的方程组数少于未知数的个数时,没有唯一解,即有无穷多个解),它们都能使均方误差最小化。即在多元回归中,特征之间会出现多重共线问题,使用最小二乘法估计系数会出现系数不稳定问题,缺乏稳定性和可靠性。
解决:用岭回归
3.lasso回归
定义:LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零,解释力很强。(相比较于岭回归。岭回归估计系数等于0的机会微乎其微,造成筛选变量困难)。
详解看参考文献