记录内容:L1正则,L2正则,弹性网络
**过拟合:**如果模型在训练集上好,在测试集上不好,那么就会出现过拟合。多项式扩展的时候,如果指定的阶数比较大,那么可能存在过拟合。从线性回归中讲,我们认为训练出来的模型参数越大,就表示越存在过拟合的情况,就是学习效果太针对特定的情景。
为了解决过拟合的问题:我们可以选择在损失函数中添加惩罚项(对于系数过大的惩罚),主要分为L1_Norm(LASSO回归)和L2_Norm(岭回归).如下图所示:
L2-norm中惩罚项的推倒过程:
Ridge(L2-norm)和LASSO(L1-norm)比较
第一
L2-norm中,由于对于各个维度的参数缩放是在一个圆内缩放的,不可能导致
有维度参数变为0的情况,那么也就不会产生稀疏解;实际应用中,数据的维度
中是存在噪音和冗余的,稀疏的解可以找到有用的维度并且减少冗余,提高回归
预测的准确性和鲁棒性(减少了overfitting)(L1-norm可以达到最终解的稀疏
性的要求)
第二、
Ridge(L2-norm)模型具有较高的准确性、鲁棒性以及稳定性;LASSO(L1-norm)模型具有较高的求解
速度
第三
如果既要考虑稳定性也考虑求解的速度,就使用Elasitc Net
如下图所示:
L1和L2正则,都中的都是上面两个式中最小二乘部分的最优解。从图中可以看出,L1正则(下图左),更容易找到最优解。
这两个正则各有利弊,那么应该选择正则1还是正则2呢。如果两者都考虑的话,我们就引入了,弹性网络—既同时使用L1正则和L2正则的线性回归模型就称为Elasitc Net算法(弹性网络算法)
p为选择L1正则的概率。
模型效果判断