回归分析模型——线性回归(一)

       回归分析是数据分析中最基础、最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。 常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。本讲我们主要学习线性回归。

1.回归的思想:研究XY之间相关性的分析。

       相关性\neq因果性,相关分析测度变量之间的关系强度,回归分析侧重考察变量之间的数量关系,通过数学表达式将这种关系确定的数量关系描述,进而确定自变量的变化对因变量影响程度。

       Y是因变量,由于别人的改变而改变的量。例如:

     (1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。 

     (2)P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变 量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)

     (3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示 一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)

     (4)管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就 是一个非负的整数。(计数变量)

     (5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁, 现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接 记他的寿命为60+,那这种数据就是截断的数据)(生存变量)

       X是自变量,用来解释Y变化的量,也叫解释变量。

       回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形 成机制,进而达到通过X去预测Y的目的。

2.回归分析解决什么问题?

     (1)识别重要变量:选择出一些与Y真相关的X(逐步回归法)

     (2)判断相关性的方向

     (3)估计权重(回归系数):可以知道不同变量之间的相对重要性

3.回归分析类型

4.数据分类、收集

4.1数据分类(会专门为大家介绍)

        由于不同的数据类型用到的建模方法不同,本节我们讲的线性回归模型需要横截面数据。

        横截面数据:在某一时点收集的不同对象的数据。(比如2019年,全国各省份GDP数据)

        时间序列数据:对同一对象在不同时间连续观察所取得的数据。(中国历年来GDP数据。)

        面板数据:横截面数据、时间序列数据综合的数据资源(2009-2019年我国各省GDP数据)

4.2数据收集

         宏观数据:在知乎搜索“数据查找”请问有哪些可以查找数据的网站? - 知乎 (zhihu.com)icon-default.png?t=N7T8https://www.zhihu.com/question/67127780

          微观数据:在人大经济论坛 

          另外,可以自己学习爬虫、使用傻瓜式软件爬取数据

5.一元线性回归

5.1一元线性回归模型

5.2多元线性回归模型 

5.3回归模型假设(好难理解,需要好好学一下高级计量经济学再给大家专门解释)

5.4参数的最小二乘估计 

regress y x1 x2 … xk,beta

5.5回归系数解释

5.5.1基本模型的回归系数 

 5.5.2取对数

 5.5.3虚拟变量X-特殊的自变量

       虚拟变量:也叫做哑变量,是自变量为定性数据,比如性别、等级等

       例如我们研究性别对于工资的影响

5.5.4 含有交互项的自变量

  • 29
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值