线性回归简介
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。[百度百科]
线性回归可以说是最简单的模型了,经常被用于连续型变量的预测问题。如:某地区的玉米产量,某个公司的营收等。
最小二乘法1
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
“最小二乘法”是对过度确定系统,即其中存在比未知数更多的方程组,以回归分析求得近似解的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的总和最小化。
最重要的应用是在曲线拟合上。最小平方所涵义的最佳拟合,即残差(残差为:观测值与模型提供的拟合值之间的差距)平方和的最小化。当问题在自变量(x变量)有重大不确定性时,那么使用简易回归和最小二乘法会发生问题;在这种情况下,须另外考虑变量-误差-拟合模型所需的方法,而不是最小二乘法。
线性回归的数学模型
- 假设输入样本 x x x是一个已经处理好的向量(比如书 x x x中没有定性的变量)。 x = ( x 1 , x 2 , … , x n ) x=(x_1,x_2,\ldots ,x_n) x=(x1,x2,…,xn), 因变量为 y y y.
线性模型为: f ( x ) = β 0 + ∑ j = 1 n β j x j f(x)=\beta_0+\sum_{j=1}^n\beta_jx_j f(x)=β0+∑j=1nβjxj - 利用最小二乘法来估计我们所需的参数:定义残差平方和(residual sum of squares RSS)
R S S ( β ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 = ∑ i = 1 m ( y i − β 0 − ∑ j = 1 n β j x i j ) 2 m 表 示 样 本 的 个 数 , n 表 示 样 本 的 维 数 , i 表 示 第 i 个 样 本 , j 表 示 第 j 个 变 量 RSS(\beta)=\sum_{i=1}^m(y_i-f(x_i))^2=\sum_{i=1}^m(y_i-\beta_0-\sum_{j=1}^n\beta_jx_{ij})^2\\ m表示样本的个数,n表示样本的维数,i表示第i个样本,j表示第j个变量 RSS(β)=i=1∑m(yi−f(xi))2=i=1∑m(yi−β0−j=1∑nβjxij)2m表示样本的个数,n表示样本的维数,i表示第i个样本,j表示第j个变量 - 求解 β \beta β
记矩阵 X m ∗ ( n + 1 ) \mathbf{X}_{m*(n+1)} Xm∗(n+1)为训练数据:
X = ( 1 x 11 x 12 … x 1 n 1 x 21 x 22 … x 2 n ⋮ ⋱ ⋱ ⋱ ⋮ 1 x m 1 x m 2 … x m n ) β = ( β 0 β 1 ⋮ β n ) Y = ( y 0 y 1 ⋮ y n ) R S S ( β