多元线性回归是一种回归分析方法,用于建立因变量与多个自变量之间的关系模型。假设我们有n个自变量和一个因变量,可以表示为:
Y = β 0 + β 1 X 1 + β 2 X 2 + . . . + β n X n + ε Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n + ε Y=β0+β1X1+β2X2+...+βnXn+ε
其中, Y Y Y 是因变量(要预测的变量), X 1 , X 2 , . . . , X n X_1, X_2, ..., X_n X1,X2,...,Xn 是自变量(用于预测的变量), β 0 , β 1 , β 2 , . . . , β n \beta_0, \beta_1, \beta_2, ..., \beta_n β0,β1,β2,...,βn 是回归系数(模型参数), ϵ \epsilon ϵ 是误差项,表示模型无法解释的随机误差
我们的目标是找到最佳的回归系数,使得模型的预测值与实际观测值之间的误差最小化。为了找到最佳的回归系数,常用的方法是最小二乘法(Ordinary Least Squares, OLS)。最小二乘法的原理是最小化观测值与预测值之间的残差平方和。具体地,我们定义残差(residual)为:
e = Y − ( β 0 + β 1 X 1 + β 2 X 2 + . . . + β n X n ) e = Y - (\beta_0 + \beta_1X1 + \beta_2X2 + ... + \beta_nXn) e=Y−(β0+β1X1+β2X2+...+βnXn)
然后,我们希望最小化残差平方和(residual sum of squares, RSS),即对于每个样本分别求残差,则有:
R S S = e 1 2 + e 2 2 + . . . + e n 2 RSS = e_1^2 + e_2^2 + ... + e_n^2 RSS=e12+e22+...+en2
最小二乘法的目标是找到使得RSS最小的回归系数。可以通过对RSS进行求导,并令导数等于零,得到回归系数的估计值。数学上,可以使用矩阵表示来求解最小二乘法。
假设我们有一个m行n+1列的数据矩阵 X X X,其中第一列为全1向量(表示截距项),m行为样本数,n列为自变量数;另外,有一个m行1列的响应变量向量Y。则多元线性回归的最小二乘估计可以表示为:
β = ( X T X ) − 1 X T Y \beta= (X^T X)^{-1} X^T Y β=(XTX)−1XTY
其中,β 是一个(n+1)行1列的回归系数向量,包含截距项和自变量系数, X T X^T XT 是 X X X的转置, X T X X^{T}X XTX是 X T X^T XT与 X X X的矩阵乘积 , ( X T X ) − 1 (X^TX)^{-1} (XTX)−1是 X T X X^T X XTX的逆矩阵。
通过求解上述公式,我们可以得到最佳的回归系数,从而建立多元线性回归模型。