线性回归(Linear Regression)

线性回归是一种常用的统计学模型,用于连续变量的预测。最小二乘法是求解线性回归参数的主要方法,通过最小化残差平方和找到最佳拟合。本文介绍了线性回归的数学模型、最小二乘法的性质和Gauss-Markov定理,并提供了Python实现。
摘要由CSDN通过智能技术生成

线性回归简介

在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。[百度百科]

线性回归可以说是最简单的模型了,经常被用于连续型变量的预测问题。如:某地区的玉米产量,某个公司的营收等。线性回归模型


最小二乘法1

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

“最小二乘法”是对过度确定系统,即其中存在比未知数更多的方程组,以回归分析求得近似解的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的总和最小化。

最重要的应用是在曲线拟合上。最小平方所涵义的最佳拟合,即残差(残差为:观测值与模型提供的拟合值之间的差距)平方和的最小化。当问题在自变量(x变量)有重大不确定性时,那么使用简易回归和最小二乘法会发生问题;在这种情况下,须另外考虑变量-误差-拟合模型所需的方法,而不是最小二乘法。


线性回归的数学模型

  1. 假设输入样本 x x x是一个已经处理好的向量(比如书 x x x中没有定性的变量)。 x = ( x 1 , x 2 , … , x n ) x=(x_1,x_2,\ldots ,x_n) x=(x1,x2,,xn), 因变量为 y y y.
    线性模型为: f ( x ) = β 0 + ∑ j = 1 n β j x j f(x)=\beta_0+\sum_{j=1}^n\beta_jx_j f(x)=β0+j=1nβjxj
  2. 利用最小二乘法来估计我们所需的参数:定义残差平方和(residual sum of squares RSS)
    R S S ( β ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 = ∑ i = 1 m ( y i − β 0 − ∑ j = 1 n β j x i j ) 2 m 表 示 样 本 的 个 数 , n 表 示 样 本 的 维 数 , i 表 示 第 i 个 样 本 , j 表 示 第 j 个 变 量 RSS(\beta)=\sum_{i=1}^m(y_i-f(x_i))^2=\sum_{i=1}^m(y_i-\beta_0-\sum_{j=1}^n\beta_jx_{ij})^2\\ m表示样本的个数,n表示样本的维数,i表示第i个样本,j表示第j个变量 RSS(β)=i=1m(yif(xi))2=i=1m(yiβ0j=1nβjxij)2mniijj
  3. 求解 β \beta β
    记矩阵 X m ∗ ( n + 1 ) \mathbf{X}_{m*(n+1)} Xm(n+1)为训练数据:
    X = ( 1 x 11 x 12 … x 1 n 1 x 21 x 22 … x 2 n ⋮ ⋱ ⋱ ⋱ ⋮ 1 x m 1 x m 2 … x m n ) β = ( β 0 β 1 ⋮ β n ) Y = ( y 0 y 1 ⋮ y n ) R S S ( β
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值