统计学 简单的线性回归(Linear Regression) - 最小二乘法 (least square method)

线性回归用于揭示数据元素间的关系,通过定义等式描述这种关系。依赖变量是被预测的变量,独立变量是预测用的变量。线性回归模型包括随机变量epsilon以修正预测误差。基本步骤包括利用历史数据优化回归方程参数,找到使误差最小的直线。例如,饭店销售额可能与周围大学学生数量有关,通过线性回归找寻两者间的最佳拟合线。

线性回归的作用: 当我们获得数据之后, 我们想要知道这些数据间元素的关系, 我们可以定义一个等式去描述这中关系. 这就是线性回归的作用. 


dependent variable: 就是要被预测的变量

Independent variable: 就是用来预测的变量


以下这个公式就是一个简单的线性回归的模型. 

beta 0 和 1 都是模型的变量

epsilon 是随机变量, 作为error term.  ( 个人理解: 因为现实生活中数据的预测结果可能被一些噪音所改变, 比如一个商店的销售额, 可能因为某天的某个客人很有钱而改变, 但是这种很有钱的客户很少见, 这种情况下的预测结果会有偏差, 使用epsilon 来进行校正. )



可能的线性回归图例:


线性回归的基本步骤:


我们通过 regression model 的到 regression equation, 然后使用 历史数据 对regression equation 的参数进行优化 得到 estimated regression equation. 获得最优参数, 进行预测新的independent 数据



例子:

背景. 一连锁饭店的 销售额 和 坐落在它周围的 大学的 学生数量 可能有关系 所以我们对 销售额 和 学生数量 之间的关系很感兴趣. 


我们收集了一部分历史数据. 如下



将数据转换为散点图:



  1. 我们现在的问题 就能转化成 找到一条直线, 这条直线需要满足 使历史数据中的各个 x 所对应的 y各个在直线上对应的y-head差最小
  2. 公式 : yi 是 历史数据x对应的y y-head 是 x 对应的在直线上y的值.
  3. 根据estimation regression equation 我们知道
  4. 将 3 带入 2, 在对 b0 和 b1 分别求 偏导. 如图 (下图为错误版本,b1推导错误,感谢  qq_31442743 同学的指正, 正确版本 见 第 5 步)
  5.  
  6. 大哭第二遍修改居然还修改错了,感谢同学再次指正。果然上完一天班脑子就是乱的。



发现问题欢迎指出.谢谢



评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值