多元线性回归

本文内容来源于清风老师的讲解

对于线性的理解

  • 假定 x x x是自变量, y y y是因变量,且满足线性关系: y i = β 0 + β 1 x i + μ i y_i=\beta_0+\beta_1 x_i+\mu_i yi=β0+β1xi+μi

  • 线性假定并不要求初始模型都呈上述的严格线性关系,自变量与因变量可通过变量替换而转成线性关系模型,如:
    y i = β 0 + β 1 ln ⁡ x i + μ i ln ⁡ y i = β 0 + β 1 ln ⁡ x i + μ i y i = β 0 + β 1 x i + μ i y i = β 0 + β 1 x 1 i + β 2 x 2 i + δ x 1 i x 2 i + μ i y_i=\beta_0+\beta_1\ln x_i+\mu_i\\ \ln y_i=\beta_0+\beta_1\ln x_i+\mu_i\\ y_i=\beta_0+\beta_1 x_i+\mu_i\\ y_i=\beta_0+\beta_1 x_{1i}+\beta_2 x_{2i}+\delta x_{1i}x_{2i}+\mu_i yi=β0+β1lnxi+μilnyi=β0+β1lnxi+μiyi=β0+β1xi+μiyi=β0+β1x1i+β2x2i+δx1ix2i+μi

  • 这种关系需要在建模前对数据进行预处理。

探究内生性

引例

  1. 假设 x x x是某产品品质评分(1-10之间), y y y为该产品的产量。我们建立一元线性回归模型,得到 y ^ = 3.4 + 2.3 x \hat y=3.4+2.3x y^=3.4+2.3x
    1. 3.4:在评分为0时,该产品的平均销售为3.4
    2. 2.3:评分每增加一个单位,该产品的平均销量可增2.3
  2. 如果现在有两个自变量, x 1 x_1 x1表示品质评分, x 2 x_2 x2表示该产品的价格。我们建立多元线性回归模型,的到 y ^ = 5.3 + 0.19 x 1 − 1.74 x 2 \hat y=5.3+0.19x_1-1.74x_2 y^=5.3+0.19x11.74x2
    1. 5.3:评分为0且价格为0时,该产品的平均销量为5.3(没显示意义,可以不分析)
    2. 0.19:在保持其他变量不变的情况下,评分每增加一个单位,该产品的平均销量增加0.19
    3. -1.74:在保持其他变量不变的情况下,价格每增加一个单位,该产品的平均销量减少1.74
  • 可以看到,引入了新的自变量价格后,对回归系数的影响非常大!
  • 原因:遗漏变量导致的内生性

内生性

  • 假设我们的模型为:
    y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k x k + μ y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\mu y=β0+β1x1+β2x2+...+βkxk+μ
    μ \mu μ为无法观测但满足一定条件的扰动项。如果误差项 μ \mu μ和所有的自变量 x x x均不相关,则称该回归模型具有外生性,如果相关,则存在内生性,内生性会导致回归系数估计得不准确:不满足无偏和一致性。

  • 引例中一元回归模型中,误差项包含价格,而价格和品质评分有关,所以导致了内生性。

核心解释变量和控制变量

  • 无内生性要求所有的解释变量均与扰动项不相关,这个假定通常太强,因为解释变量一般很多。
  • 要弱化此条件,可以将解释变量分为核心解释变量和控制变量两类,只要保证核心解释变量与 μ \mu μ不相关即可。
  • 核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的一致估计。
  • 控制变量:对这些变量本身并无太大兴趣,只是为了“控制住”那些对被解释变量有影响的遗漏因素。即把与核心解释变量有关的变量全放入回归中。

回归系数的解释

  • 回归估计方程:
    y ^ = β ^ 0 + β ^ 1 x 1 + β ^ 2 x 2 + . . . + β ^ k x k \hat y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2+...+\hat\beta_kx_k y^=β^0+β^1x1+β^2x2+...+β^kxk

    1. β 0 \beta_0 β0的数值意义一般我们不考虑,因为所有的自变量不会同时为0。
    2. β ^ m \hat\beta_m β^m是控制其他自变量不变的情况下, x m x_m xm每增加一个单位,对 y y y造成的变化,即 β ^ m = ∂ y ∂ x m \hat\beta_m=\frac{\partial y}{\partial x_m} β^m=xmy,因此多元线性回归模型中的回归系数,也称为偏回归系数。

什么时候取对数?

  • 取对数意味着原被解释变量对解释变量的弹性,即百分比的变化而不是数值的变化。
  • 目前,对于什么时候取对数还没有固定的规则,但是有一些经验法则:
    1. 与市场价值有关的,例如:价格、销售额、工资等都可以取对数;
    2. 以年度量的变量,如受教育年限、工作经历等通常不取对数。
    3. 比例变量,如失业率、参与率等,两者皆可;
    4. 变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y)。
  • 取对数的好处:
    1. 较弱数据的异方差性;
    2. 如果变量本身不符合正态分布,取了对数后可能渐进服从正态分布;
    3. 模型形式的需要,让模型具有经济学意义。

四类模型回归系数的解释

  1. 一元线性回归: y = a + b x + μ y=a+bx+\mu y=a+bx+μ x x x每增加1个单位, y y y平均变化 b b b个单位;
  2. 双对数模型: ln ⁡ y = a + b ln ⁡ x + μ \ln y=a+b\ln x+\mu lny=a+blnx+μ x x x每增加1%, y y y平均变化b%;
  3. 半对数模型: y = a + b ln ⁡ x + μ y=a+b\ln x+\mu y=a+blnx+μ x x x每增加1%, y y y平均变化b/100个单位;
  4. 半对数模型: ln ⁡ y = a + b ln ⁡ x + μ \ln y=a+b\ln x+\mu lny=a+blnx+μ x x x每增加1个单位, y y y平均变化(100b)%个单位。

虚拟变量

  • 回归处理的是定量数据,那么定性数据怎么处理?
  • Stata对虚拟变量的处理很友好,可以使用这个软件进行分析。

单分类

  • 我们要研究性别对于工资的影响:
    y = β 0 + δ 0 F e m a l e + β 1 x 1 + β 2 x 2 + . . . + β k x k + μ y=\beta_0+\delta_0 Female+\beta_1 x_1+\beta_2x_2+...+\beta_k x_k+\mu y=β0+δ0Female+β1x1+β2x2+...+βkxk+μ

    1. F e m a l e i = 1 Female_i=1 Femalei=1表示第 i i i个样本为女性;
    2. F e m a l e i = 0 Female_i=0 Femalei=0表示第 i i i个样本为男性;
    3. 核心解释变量: F e m a l e Female Female
    4. 控制变量: x m x_m xm(和女性有关的变量)
  1. E ( y ∣ F e m a l e = 1 以 及 其 他 自 变 量 给 定 ) = δ 0 × 1 + C E(y|Female=1以及其他自变量给定)=\delta_0\times1+C E(yFemale=1)=δ0×1+C
  2. E ( y ∣ F e m a l e = 0 以 及 其 他 自 变 量 给 定 ) = δ 0 × 0 + C E(y|Female=0以及其他自变量给定)=\delta_0\times0+C E(yFemale=0)=δ0×0+C
  3. E ( y ∣ F e m a l e = 1 以 及 其 他 自 变 量 给 定 ) − E ( y ∣ F e m a l e = 0 以 及 其 他 自 变 量 给 定 ) = E(y|Female=1以及其他自变量给定)-E(y|Female=0以及其他自变量给定)= E(yFemale=1)E(yFemale=0)= δ 0 \delta_0 δ0 δ 0 \delta_0 δ0显著异于0才有意义)
  4. δ 0 \delta_0 δ0可解释为:在其他自变量给定的情况下,女性的平均工资与男性的平均工资的差异。(男性平均工资为对照组)

多分类

  • 多分类变量中一个是对照组,其余变量是虚拟变量,这是为了避免完全多重共线性的影响,所以引入虚拟变量的个数一般是分类数-1

拟合优度较低

  1. 回归分为解释性回归和预测性回归:
    1. 预测性回归一般才会更看重 R 2 R^2 R2
    2. 解释性回归更多关注模型整体显著性、自变量的统计显著性和经济意义显著性
  2. 可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
  3. 数据中可能存在异常值或者数据得分布季度不均匀。

拟合优度和调整后的拟合优度

  • 我们引入的自变量越多,拟合优度会变大,显然这不是我们想要的。我们倾向于使用调整后的拟合优度,如果新引入的自变量对残差SSE的减少程度特别少,那么调整后的拟合有毒反而会减小。
    R 2 = 1 − S S E S S T R^2=1-\frac{SSE}{SST} R2=1SSTSSE R a d j u s t e d 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) R^2_{adjusted}=1-\frac{SSE/(n-k-1)}{SST/(n-1)} Radjusted2=1SST/(n1)SSE/(nk1)

标准化回归系数

  • 为了更为精准的研究影响评价量的重要因素(去除量纲的影响),我们可以考虑使用标准化回归系数。
  • 对数据进行标准化,就是将原始数据减去它的均数后,再除以该变量的标准差,回归后相应可得到标准化回归系数。
  • 标准化回归系数的绝对值越大,说明对因变量的影响就越大(只关心显著的回归系数)
  • 对数据进行标准化处理不会影响回归系数的标准误,也不会影响显著性。

异方差

  • 在之前的回归分析中,我们都默认了扰动项 μ i \mu_i μi是球形扰动项:满足“同方差”( E ( μ i 2 ) = σ 2 E(\mu_i^2)=\sigma^2 E(μi2)=σ2)和“无自相关”( E ( μ i μ j ) = 0 E(\mu_i \mu_j)=0 E(μiμj)=0)两个条件。
  • 横截面数据容易出现异方差的问题;时间序列数据容易出现自相关的问题。

异方差的后果

  1. OLS估计出来的回归系数是无偏、一致的。
  2. 假设检验无法使用(构造的统计量失效了)。
  3. OLS估计量不再是最有线性无偏估计。

检验异方差

  1. 可以画残差和拟合值(或自变量)的散点图,分布均匀则没有异方差。
  2. BP检验和怀特检验。后者还包括平方项与交叉项,因此,BP检验可以看成怀特检验的特例。BP检验的Stata命令:estat hettest,rhs iid;怀特检验的Stata命令:estat imtest,white

解决异方差

  1. 使用OLS+稳健的标准误(用得多)
    1. 任然使用OLS回归,但使用稳健标准误差。这是最简单,也是目前最通用的方法。只要样本容量较大,即使存在异方差的情况下,若使用稳健标准误,则所有参数估计、假设检验均可照常进行。
    2. Stata命令:regress y x_1 x_2 … x_k ,robust
  2. 广义最小二乘法GLS
    1. 原理:方差较大的数据包含的信息较少,我们可以给予信息量大的数据(即方差较小的数据更大的权重)
    2. 缺点:我们不知道扰动项真实的协方差矩阵,因此我们只能用样本数据来估计,这样得到的结果不稳健,存在偶然性。

多重共线性

  • 如果数据矩阵 X X X不满列秩,即某一解释变量可以由其他解释变量线性表出,则存在“严格多重共线性”(完全多重共线性)。
  • 如果将第 i i i个解释变量 x i x_i xi对其余的解释变量 { x 1 , . . . , x i − 1 , x i + 1 , . . . , x k } \{x_1,...,x_{i-1},x_{i+1},...,x_k\} {x1,...,xi1,xi+1,...,xk}进行回归,所得到的可决系数较高,则存在近似多重共线性。

表现

  1. 虽然整个回归方程的 R 2 R^2 R2较大、 F F F检验也很显著,但单个系数的 t t t检验却不显著,或者系数估计值不合理,甚至符号与理论预期相反。
  2. 增减解释变量使得系数估计值发生较大变化。

如何检验多重共线性

  • 方差膨胀因子(VIF):假设现在又 k k k个自变量,那么第 m m m个自变量的 V I F m = 1 1 − R 1 ∼ k / m 2 VIF_m=\frac{1}{1-R_{1\sim k/m}^2} VIFm=1R1k/m21

R 1 ∼ k / m 2 R_{1\sim k/m}^2 R1k/m2时将第 m m m个自变量作为因变量,对剩下的 k − 1 k-1 k1个自变量回归得到的拟合优度。

  • V I F m VIF_m VIFm越大,说明第 m m m个变量和其他变量的相关性越大。
  • 如果 V I F = max ⁡ { V I F 1 , . . . , V I F k } > 10 VIF=\max\{VIF_1,...,VIF_k\}>10 VIF=max{VIF1,...,VIFk}>10,则认为该回归方程存在严重的多重共线性。Stata命令:estat vif

多重共线性处理方法

  1. 如果只是为了预测,即不关心具体的回归系数,则存在多重共线性没有影响(假设整个方程是显著的)。这是因为,多重共线性的主要后果是使得对单个变量的贡献不准,但所有变量的整体效果仍可以较准确的估计。
  2. 如果关心具体的回归系数,但多重共线性并不影响所关心变量的显著性,那么也可以不必理会。即使在有方差膨胀的情况下,这些系数依然显著;如果没有多重共线性,则只会更加显著。
  3. 如果多重共线性影响到所关心变量(核心解释变量)的显著性,则需要增大样本容量,剔除导致严重共线性的变量(不要轻易删除,因为可能会有内生性的影响),或对模型设定进行修改。

解决多重共线性

  • 向前逐步回归:将自变量逐个引入模型,每引入一个自变量后都要进行检验,显著时才加入回归模型。缺点:随着以后其他自变量的引入,原来显著的自变量也可能又变为不显著了,但并没有将其及时从回归方程中剔除掉。
  • 向后逐步回归:与向前逐步回归相反,先将所有变量均放入模型,之后尝试将其中一个自变量从模型中剔除,看整个模型解释因变量的便宜是否有显著变异,之后将最没有解释力的那个自变量剔除;此过程不断迭代,直到没有自变量符合剔除的条件。缺点:一开始就把全部变量都引入回归方程,这样计算量比较大。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

weixin_961876584

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值