戳上面的蓝字关注我们!
作者:alg-flody
编辑:Emily
0 回顾
在最近的推送中,先后总结了最小二乘法的原理,两个求解方法:直接法和梯度下降,最后利用这两种思路进行了python实战;之后阐述了OLS算法使用的前提是必须满足数据集无多重共线性,因为它是无偏估计,这也带来了它非常惧怕多重共线性问题,在面对这些数据时,它往往得到的权重参数方差大,是一个不稳定的回归算法。
工程应用中,你拿到的数据集可能有上百个特征维度,实际上是很难保证数据集中的所有维度都满足无共线性,所以OLS实际上没有太多的实际应用价值,它必须要想到一种办法解决多重共线性,进而过滤掉那些权重参数等于或接近于0的特征项,因为它们根本就对最终的标签值贡献不了任何东西,我们最终想要的结果是从这100个维度中,得到一些,可能最后只有10个特征,或个位数个特征是主要的影响标签值的特征,它们才是贡献最大的特征列。
要想达成这个目标,