1、线性回归
(1)分类:一元线性回归、多元线性回归
(2)优缺点分析:
优点:模型简单、运算量小,即使数据量很大,仍然可以快速得到结果
模型的参数就是特征的权重,具有很好的解释性
缺点:对异常值敏感
当数据没有明显的线性关系时,效果很差
(3)原理分析:
主要思想:用一条直线或者一个平面去拟合所有的数据,使得真实值与预测值之间产生的误差(距离)最小
模型:
一元线性模型:
多元线性模型:
损失函数:均方误差、最小二乘法
2、逻辑回归
(1)原理分析
主要思想:将线性模型的输出映射到0-1之间,通过阈值判断,进行二分类
模型:
损失函数: 最大似然
3、多项式回归
(1)原理分析
主要思想:使用多项式方程来分析一个因变量与一个或多个自变量间的多项式关系
模型:
关键在于求解 多项式系数 b 以及多项式阶数 m
损失函数:与线性模型一样
4、逐步回归
(1)原理分析
主要思想:这方法的主要思想是对自变量进行处理,将处理之后的自变量与因变量进行回归分析,本质上是一种降维思想,目的是为了用最少的变量去最大化模型的预测能力
主要方法:
前进法是开始于最显著的变量然后在模型中逐渐增加次显著变量
后退法是开始于所有变量,然后逐渐移除一些不显著变量
5、岭回归
(1)原理分析
主要思想:当自变量之间存在强相关关系(多重共线性)的时候,线性模型效果不好的时候,可以使用岭回归,其在目标函数当中加入了L2正则化,使得模型不会过于复杂,从而得到一个不错的预测效果
模型:
注意:L2正则化虽然会惩罚系数,但是不会让系数为0,因此不会剔除自变量
6、Lasso回归
(1)原理分析
主要思想:与岭回归的思想相同,在目标函数当中加入L1正则化,降低模型的复杂度,得到一个预测效果较好的模型
模型:
注意:L1正则化可以使得系数为0,从而去除某些不重要的自变量
7、ElasticNet回归
(1)原理分析
主要思想:综合岭回归与Lasso回归,在目标函数中加入L1正则化和L2正则化,降低模型复杂度,得到较好模型
模型:
8、如何选择回归算法
面对如此多的回归模型,最重要的是根据自变量因变量的类型、数据的维数和其他数据的重要特征去选择最合适的方法。以下是我们选择正确回归模型时要主要考虑的因素:
1.数据探索是建立预测模型不可或缺的部分。它应该是在选择正确模型之前要做的。
2.为了比较不同模型的拟合程度,我们可以分析不同的度量,比如统计显著性参数、R方、调整R方、最小信息标准、BIC和误差准则。另一个是Mallow‘s Cp准则。
3.交叉验证是验证预测模型最好的方法。你把你的数据集分成两组:一组用于训练,一组用于验证。
4.如果你的数据集有许多让你困惑的变量,你就不应该用自动模型选择方法,因为你不想把这些变量放在模型当中。
5.不强大的模型往往容易建立,而强大的模型很难建立。
6.回归正则方法在高维度和多重共线性的情况下表现的很好