1.线性回归(Linear Regression):
通过最佳的拟合直线,建立因变量与一个或多个自变量间的关系
表达式为:Y = a + b * X,a为直线截距,b为直线斜率。如果给出了自变量X,就能通过这个线性回归表达式算出预测值,即因变量Y。
因变量是连续的,自变量可以是连续的也可以是离散的,回归的本质是线性的。一元线性回归和多元线性回归的区别是多元线性回归变量大于1,而一元线性回归只有1个自变量。
线性回归通常使用最小二乘法拟合最佳拟合直线,因为计算的是误差平法昂和,所以,误差正负值之间没有相互抵消。
要求自变量和因变量之间必须满足线性关系。
多元回归存在多重共线性,自相关性和异方差性
线性回归对异常值非常敏感,异常值会严重影响回归线和最终的预测值
多重共线性会增加系数估计的方差,并且使得估计对模型中的微小变化非常敏感。
在多个自变量的情况下,可以采用正向选择,向后消除和逐步选择的方法来选择最重要的自变量。
2.逻辑回归(Logistic regression):
逻辑回归广泛用于分类问题,当因变量是二分类(0/1,True/False,Yes/No)时,应使用逻辑回归。
因变量Y的取值范围为[0, 1],可以用公式表示Y = b0 + b1 * x1 + b2 * x2.......+bk * x* = ln(p / (1 - p)) = logit(p)