学习打卡7.29-7.31

多元线性回归分析

关键词

1.相关性

相关性≠ 因果性

在绝大多数情况下,我们没有能力去探究严格的因果关 系,所以只好退而求其次,改成通过回归分析,研究相关关 系。

2.Y

俗称因变量。取义,因为别人的改变,而改变的变量
在这里插入图片描述

3.X

而X是用来解释Y的相关变量,所以X被称为自变量
另一套定义方法是:X为解释变量,Y为被解释变量

回归分析的使命

1.识别重要变量
2.判断相关性的方向
3.要估计权重

分类

在这里插入图片描述

数据

横截面数据:在某一时点收集的不同对象的数据
时间序列数据:对同一对象在不同时间连续观察所取得的数据
面板数据:横截面数据与时间序列数据综合起来的一种数据资源。

处理方法

在这里插入图片描述

0-1回归

在这里插入图片描述

一元线性回归

线性

在这里插入图片描述

一元线性函数拟合

在这里插入图片描述

回归系数

在这里插入图片描述
在这里插入图片描述
原因:遗漏变量导致的内生性

内生性

在这里插入图片描述

内生性的蒙特卡罗模拟

在这里插入图片描述

核心解释变量和控制变量

核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计
控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也 放入回归方程,主要是为了“控制住”那些对被解释变量有影响的遗漏因素。
在实际应用中,我们只要保证核心解释变量与𝝁不相关即可。

回归系数的解释

在这里插入图片描述

取对数

经验法则

(1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
(2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
(3)比例变量,如失业率、参与率等,两者均可;
(4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);

好处

(1)减弱数据的异方差性
(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布
(3)模型形式的需要,让模型具有经济学意义。

四类模型回归系数的解释

1.一元线性回归

𝑦= 𝑎+ 𝑏𝑥+ 𝜇,x每增加1个单位,y平均变化b个单位;

2、双对数模型

𝑙𝑛𝑦= 𝑎+ 𝑏𝑙𝑛𝑥+ 𝜇,x每增加1%,y平均变化b%

3、半对数模型

𝑦=𝑎+𝑏𝑙𝑛𝑥+ 𝜇,x每增加1%,y平均变化b/100个单位

4.半对数模型

𝑙𝑛𝑦=𝑎+𝑏𝑥+ 𝜇,x每增加1个单位,y平均变化(100b)%

虚拟变量X

举例

在这里插入图片描述

虚拟变量的解释

在这里插入图片描述

多分类的虚拟变量设置

例题

在这里插入图片描述

构建模型

在这里插入图片描述
为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1。

含有交互项的自变量

在这里插入图片描述

例题

在这里插入图片描述

导入数据

在这里插入图片描述

数据的描述性统计

定量数据

summarize 变量1 变量2 … 变量n
在这里插入图片描述

可以简写为sum

定性数据

tabulate 变量名,gen(A)
在这里插入图片描述
可以简写为tab

最后把结果汇总一下
在这里插入图片描述

回归语句

regress y x1 x2 … xk
可以简写为reg
默认使用的OLS:普通最小二乘估计法
在这里插入图片描述
其中
Model对应SSR
Residual对应SSE
Total对应SST
df 自由度

加入虚拟变量回归

在这里插入图片描述
在这里插入图片描述

如果拟合优度较低

1.回归分为解释型回归和预测型回归
预测型回归一般才会更看重𝑅。
解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可
2.可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
3.数据中可能有存在异常值或者数据的分布极度不均匀。

我们引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度, 如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。
在这里插入图片描述

标准化回归系数

为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可考虑使用标准化回归系数
对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,计算得到新的变量值,新变量构成的回归方程称为标准化回归方程,回归后相应可得到标准化回归系数。

标准化系数的绝对值越大,说明对因变量的影响就越大

regress y x1 x2 … xk,beta
在这里插入图片描述

异方差

扰动项要满足的条件

在这里插入图片描述
横截面数据容易出现异方差的问题

判断是否存在异方差

1.OLS估计出来的回归系数是无偏、一致的
2.假设检验无法使用
3.OLS估计量不再是最优线性无偏估计量

怎样解决异方差

1.使用OLS + 稳健的标准误
2.广义最小二乘估计法GLS

原理

方差较小的数据包含的信息较多,我们可以给予信息量大的数据更大的权 重

检验异方差

在这里插入图片描述

异方差的假设检验

BP检验

在这里插入图片描述
Stata命令(在回归结束后使用):
estat hettest ,rhs iid

怀特检验

在这里插入图片描述
Stata命令(在回归结束后使用):
estat imtest,white

异方差的处理方法

使用OLS + 稳健的标准误

regress y x1 x2 … xk,robust
在这里插入图片描述

多重共线性

在这里插入图片描述

检验多重共线性

在这里插入图片描述
Stata计算各自变量VIF的命令(在回归结束后使用):
estat vif

多重共线性处理方法

(1)如果不关心具体的回归系数,而只关心整个方程预测被解释变量的能力,则通常可以不必理会多重共线性(假设你的整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效 应仍可以较准确地估计。
(2)如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有 多重共线性,则只会更加显著。
(3) 如果多重共线性影响到所关心变量的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除哦,因为可能会有内生性的影响),或对模型设定进行修改。

逐步回归

向前逐步回归

将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。

缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了, 但是,并没有将其及时从回归方程中剔除掉。

stepwise regress y x1 x2 … xk, pe(#1)
pe(#1) specifies the significance level for addition to the model; terms with p<#1 are eligible for addition(显著才加入模型中)

向后逐步回归

与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的 变异是否有显著变化,之后将最没有解释力的那个自变量剔除;此过程不断迭代, 直到没有自变量符合剔除的条件。

缺点:一开始把全部变量都引入回归方程, 这样计算量比较大。若对一些不重要的变量,一开始就不引入,这样就可以减少 一些计算。当然这个缺点随着现在计算机的能力的提升,已经变得不算问题了

stepwise regress y x1 x2 … xk, pr(#2)
pr(#2) specifies the significance level for removal from the model; terms with p>=#2 are eligible for removal(不显著就剔除出模型).

说明

在这里插入图片描述

岭回归

原理

和OLS 估计类似,但是对系数的大小设置了惩罚项
在这里插入图片描述

lasso回归

原理

在这里插入图片描述

例题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
上表右边第1 列即为Lasso 所估计的变量系数。其中,除常数项外,只有3 个变量的系数为非零,而其余变量(未出现在表中)的系数则为0。考虑到作为收缩估计量的Lasso 存在偏差(bias),上表右边第2 列汇报了“Post Lasso” 估计量的结果,即仅使用Lasso 进行变量筛选,然后扔掉Lasso 的回归系数,再对筛选出来的变量进行OLS 回归。

注意:以上结果可能随着我们之前设置的随机数种子变化,因为lasso回归的估计是近似算法,且剔除的多重共线性变量是相对的。

总结

在这里插入图片描述

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值