回归分析是数据分析中最基础、最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。 常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。本讲我们主要学习线性回归。
1.回归的思想:研究X和Y之间相关性的分析。
相关性因果性,相关分析测度变量之间的关系强度,回归分析侧重考察变量之间的数量关系,通过数学表达式将这种关系确定的数量关系描述,进而确定自变量的变化对因变量影响程度。
Y是因变量,由于别人的改变而改变的量。例如:
(1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
(2)P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变 量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
(3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示 一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)
(4)管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就 是一个非负的整数。(计数变量)
(5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁, 现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接 记他的寿命为60+,那这种数据就是截断的数据)(生存变量)
X是自变量,用来解释Y变化的量,也叫解释变量。
回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形 成机制,进而达到通过X去预测Y的目的。
2.回归分析解决什么问题?
(1)识别重要变量:选择出一些与Y真相关的X(逐步回归法)
(2)判断相关性的方向
(3)估计权重(回归系数):可以知道不同变量之间的相对重要性
3.回归分析类型
4.数据分类、收集
4.1数据分类(会专门为大家介绍)
由于不同的数据类型用到的建模方法不同,本节我们讲的线性回归模型需要横截面数据。
横截面数据:在某一时点收集的不同对象的数据。(比如2019年,全国各省份GDP数据)
时间序列数据:对同一对象在不同时间连续观察所取得的数据。(中国历年来GDP数据。)
面板数据:横截面数据、时间序列数据综合的数据资源(2009-2019年我国各省GDP数据)
4.2数据收集
宏观数据:在知乎搜索“数据查找”请问有哪些可以查找数据的网站? - 知乎 (zhihu.com)https://www.zhihu.com/question/67127780
微观数据:在人大经济论坛
另外,可以自己学习爬虫、使用傻瓜式软件爬取数据
5.一元线性回归
5.1一元线性回归模型
5.2多元线性回归模型
5.3回归模型假设(好难理解,需要好好学一下高级计量经济学再给大家专门解释)
5.4参数的最小二乘估计
regress y x1 x2 … xk,beta
5.5回归系数解释
5.5.1基本模型的回归系数
5.5.2取对数
5.5.3虚拟变量X-特殊的自变量
虚拟变量:也叫做哑变量,是自变量为定性数据,比如性别、等级等
例如我们研究性别对于工资的影响