机器学习算法准备提升——线性模型（1）【最小二乘和与Lasso、Riedg有关的线性模型】_lasso估计量与最小二乘估计量之间的关系,在正交矩阵的前提下-CSDN博客

本文链接：https://blog.csdn.net/weixin_43763859/article/details/106920435

线性模型的一般的数学表示方法如下：

$\hat{y}(\omega, x) = \omega_0 + \omega_1 x_1 + ... + \omega_px_p$

其中， $\hat{y}$ 是预测的值，这个模型中，我们把向量 $\omega = (\omega_1, ...,\omega_p)$ 作为系数，把 $\omega_0$ 作为偏移量。

1、最小二乘法（Ordinary Least Squares）

线性回归模型去学习这样的一个模型，对应的系数是 $\omega = (\omega_1, ...,\omega_p)$ ，通过最小化数据集中的标签（label）和线性模型预测出来的值之间的残差和来学习线性模型中的系数。对应的数学公式为：

$min_{\omega}||X\omega - y||^2_2$

最小二乘法的系数估计依赖于特征的独立。当特征有关联，且涉及的矩阵 $X$ 的列近似线性相关，则这个矩阵就会趋于奇异。最小二乘估计对观测目标（label）的随机错误就会变得非常敏感，产生较大的方差。

2、岭回归和分类（Ridge regression and classification）

（1）回归

岭回归通过对系数大小的惩罚来解决普通最小二乘法的一些问题。对应的数学公式如下：

$min_{\omega}||X\omega - y||^2_2 + \alpha||\omega||^2_2$

这里的复杂性参数 $\alpha \geq 0$ 控制收缩量： $\alpha$ 的值越大，收缩量越大，系数对共线性的鲁棒性越强。

（2）分类

这个分类器首先将二分类转换为{-1， 1}，然后就变为一个回归任务，优化目标不变：

$min_{\omega}||X\omega - y||^2_2 + \alpha||\omega||^2_2$

预测的类对应的是这个回归器预测值的符号。

对于多个类别的分类，问题就变为多输出的回归，预测的类就对应输出的最高值。

有个疑问的就是为什么用最小二乘法损失来拟合函数而不用传统的logistic or highe losses。然而在实践中，所有这些模型在准确性或精度/召回方面都可能导致类似的交叉验证分数，而RidgeClassifier使用的惩罚最小二乘损失允许对具有不同计算性能特征的数值求解器进行非常不同的选择。

在大量的类时，岭分类要比像逻辑回归快很多。