回归分析模型——线性回归（一）

白云黑土666

已于 2024-05-28 14:27:43 修改

阅读量1.1k

点赞数 29

文章标签：数学建模数据分析概率论数据挖掘线性回归

于 2024-05-17 16:06:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44781446/article/details/138962410

版权

回归分析是数据分析中最基础、最重要的分析工具，绝大多数的数据分析问题，都可以使用回归的思想来解决。回归分析的任务就是，通过研究自变量X和因变量Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去预测Y的目的。常见的回归分析有五类：线性回归、0‐1回归、定序回归、计数回归和生存回归，其划分的依据是因变量Y的类型。本讲我们主要学习线性回归。

1.回归的思想：研究X和Y之间相关性的分析。

相关性 $\neq$ 因果性，相关分析测度变量之间的关系强度，回归分析侧重考察变量之间的数量关系，通过数学表达式将这种关系确定的数量关系描述，进而确定自变量的变化对因变量影响程度。

Y是因变量，由于别人的改变而改变的量。例如：

（1）经济学家研究经济增长的决定因素，那么Y可以选取GDP增长率（连续数值型变量）。

（2）P2P公司要研究借款人是否能按时还款，那么Y可以设计成一个二值变量，Y=0时代表可以还款，Y=1时代表不能还款（0‐1型变量）。

（3）消费者调查得到的数据（1表示非常不喜欢，2表示有点不喜欢，3表示一般般，4表示有点喜欢，5表示非常喜欢）（定序变量）

（4）管理学中RFM模型：F代表一定时间内，客户到访的次数，次数其实就是一个非负的整数。（计数变量）

（5）研究产品寿命、企业寿命甚至是人的寿命（这种数据往往不能精确观测，例如现在要研究吸烟对于寿命的影响，如果选取的样本中老王60岁，现在还活的非常好，我们不可能等到他去世了再做研究，那怎么办呢？直接记他的寿命为60+，那这种数据就是截断的数据）（生存变量）

X是自变量，用来解释Y变化的量，也叫解释变量。

回归分析的任务就是，通过研究X和Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去预测Y的目的。

2.回归分析解决什么问题？

（1）识别重要变量：选择出一些与Y真相关的X（逐步回归法）

（2）判断相关性的方向

（3）估计权重（回归系数）：可以知道不同变量之间的相对重要性

3.回归分析类型

4.数据分类、收集

4.1数据分类（会专门为大家介绍）

由于不同的数据类型用到的建模方法不同，本节我们讲的线性回归模型需要横截面数据。

横截面数据：在某一时点收集的不同对象的数据。（比如2019年，全国各省份GDP数据）

时间序列数据：对同一对象在不同时间连续观察所取得的数据。（中国历年来GDP数据。）

面板数据：横截面数据、时间序列数据综合的数据资源（2009-2019年我国各省GDP数据）

4.2数据收集

宏观数据：在知乎搜索“数据查找”请问有哪些可以查找数据的网站？ - 知乎 (zhihu.com)https://www.zhihu.com/question/67127780

微观数据：在人大经济论坛

另外，可以自己学习爬虫、使用傻瓜式软件爬取数据

5.一元线性回归

5.1一元线性回归模型

5.2多元线性回归模型

5.3回归模型假设（好难理解，需要好好学一下高级计量经济学再给大家专门解释）

5.4参数的最小二乘估计

regress y x1 x2 … xk,beta

5.5回归系数解释

5.5.1基本模型的回归系数

5.5.2取对数

5.5.3虚拟变量X-特殊的自变量

虚拟变量：也叫做哑变量，是自变量为定性数据，比如性别、等级等

例如我们研究性别对于工资的影响

5.5.4 含有交互项的自变量

白云黑土666

关注

29
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

白云黑土666 CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

117万+: 周排名

11万+: 总排名

5964: 访问

: 等级

235: 积分

171: 粉丝

164: 获赞

1: 评论

126: 收藏

私信

关注

热门文章

最新评论

主成分分析
CSDN-Ada助手: 恭喜用户写了第三篇博客，标题为“主成分分析”！持续创作是提升自己的最好方式，您的努力和热情让我们看到了您对数据分析的热爱和专注。在下一步的创作中，建议您可以尝试深入探讨主成分分析的应用领域，或者结合实际案例进行分析，这样可以让读者更好地理解和应用主成分分析的方法。期待您更多精彩的作品！祝您创作顺利！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
假设检验
CSDN-Ada助手: 非常棒的博文！假设检验的概念确实十分重要，P值的运用也能够帮助我们更准确地做出决策。除了已经提到的内容，我觉得在实际应用中，还可以考虑到样本容量的大小对假设检验结果的影响，以及如何正确选择检验方法和显著水平等方面。希望你能够继续分享更多相关的知识和经验，期待你的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。