统计学简单的线性回归(Linear Regression) - 最小二乘法 (least square method)

最新推荐文章于 2022-05-03 16:30:28 发布

原创最新推荐文章于 2022-05-03 16:30:28 发布 · 2w 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数学相关专栏收录该内容

16 篇文章

订阅专栏

线性回归用于揭示数据元素间的关系，通过定义等式描述这种关系。依赖变量是被预测的变量，独立变量是预测用的变量。线性回归模型包括随机变量epsilon以修正预测误差。基本步骤包括利用历史数据优化回归方程参数，找到使误差最小的直线。例如，饭店销售额可能与周围大学学生数量有关，通过线性回归找寻两者间的最佳拟合线。

线性回归的作用: 当我们获得数据之后, 我们想要知道这些数据间元素的关系, 我们可以定义一个等式去描述这中关系. 这就是线性回归的作用.

dependent variable: 就是要被预测的变量

Independent variable: 就是用来预测的变量

以下这个公式就是一个简单的线性回归的模型.

beta 0 和 1 都是模型的变量

epsilon 是随机变量, 作为error term. ( 个人理解: 因为现实生活中数据的预测结果可能被一些噪音所改变, 比如一个商店的销售额, 可能因为某天的某个客人很有钱而改变, 但是这种很有钱的客户很少见, 这种情况下的预测结果会有偏差, 使用epsilon 来进行校正. )

可能的线性回归图例:

线性回归的基本步骤:

我们通过 regression model 的到 regression equation, 然后使用历史数据对regression equation 的参数进行优化得到 estimated regression equation. 获得最优参数, 进行预测新的independent 数据

例子:

背景. 一连锁饭店的销售额和坐落在它周围的大学的学生数量可能有关系所以我们对销售额和学生数量之间的关系很感兴趣.

我们收集了一部分历史数据. 如下

将数据转换为散点图:

我们现在的问题就能转化成找到一条直线, 这条直线需要满足使历史数据中的各个 x 所对应的 y 与各个在直线上对应的y-head的差最小
公式 : yi 是历史数据x对应的y y-head 是 x 对应的在直线上y的值.
根据estimation regression equation 我们知道
将 3 带入 2, 在对 b0 和 b1 分别求偏导. 如图 (下图为错误版本，b1推导错误，感谢 qq_31442743 同学的指正, 正确版本见第 5 步)
第二遍修改居然还修改错了，感谢同学再次指正。果然上完一天班脑子就是乱的。

发现问题欢迎指出.谢谢

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。