多元线性回归

最新推荐文章于 2023-04-06 02:50:44 发布

weixin_961876584

最新推荐文章于 2023-04-06 02:50:44 发布

阅读量399

点赞数

分类专栏：数学建模算法与应用文章标签：线性回归回归机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45775970/article/details/125029141

版权

数学建模算法与应用专栏收录该内容

20 篇文章 12 订阅

订阅专栏

本文内容来源于清风老师的讲解

对于线性的理解

假定 $x$ 是自变量， $y$ 是因变量，且满足线性关系： $y_i=\beta_0+\beta_1 x_i+\mu_i$
线性假定并不要求初始模型都呈上述的严格线性关系，自变量与因变量可通过变量替换而转成线性关系模型，如：
$y_i=\beta_0+\beta_1\ln x_i+\mu_i\\ \ln y_i=\beta_0+\beta_1\ln x_i+\mu_i\\ y_i=\beta_0+\beta_1 x_i+\mu_i\\ y_i=\beta_0+\beta_1 x_{1i}+\beta_2 x_{2i}+\delta x_{1i}x_{2i}+\mu_i$
这种关系需要在建模前对数据进行预处理。

探究内生性

引例

假设 $x$ 是某产品品质评分（1-10之间）， $y$ 为该产品的产量。我们建立一元线性回归模型，得到 $\hat y=3.4+2.3x$
1. 3.4：在评分为0时，该产品的平均销售为3.4
2. 2.3：评分每增加一个单位，该产品的平均销量可增2.3
如果现在有两个自变量， $x_1$ 表示品质评分， $x_2$ 表示该产品的价格。我们建立多元线性回归模型，的到 $\hat y=5.3+0.19x_1-1.74x_2$
1. 5.3：评分为0且价格为0时，该产品的平均销量为5.3（没显示意义，可以不分析）
2. 0.19：在保持其他变量不变的情况下，评分每增加一个单位，该产品的平均销量增加0.19
3. -1.74：在保持其他变量不变的情况下，价格每增加一个单位，该产品的平均销量减少1.74

可以看到，引入了新的自变量价格后，对回归系数的影响非常大！
原因：遗漏变量导致的内生性

内生性

假设我们的模型为：
$y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+\mu$
$\mu$ 为无法观测但满足一定条件的扰动项。如果误差项 $\mu$ 和所有的自变量 $x$ 均不相关，则称该回归模型具有外生性，如果相关，则存在内生性，内生性会导致回归系数估计得不准确：不满足无偏和一致性。
引例中一元回归模型中，误差项包含价格，而价格和品质评分有关，所以导致了内生性。

核心解释变量和控制变量

无内生性要求所有的解释变量均与扰动项不相关，这个假定通常太强，因为解释变量一般很多。
要弱化此条件，可以将解释变量分为核心解释变量和控制变量两类，只要保证核心解释变量与 $\mu$ 不相关即可。
核心解释变量：我们最感兴趣的变量，因此我们特别希望得到对其系数的一致估计。
控制变量：对这些变量本身并无太大兴趣，只是为了“控制住”那些对被解释变量有影响的遗漏因素。即把与核心解释变量有关的变量全放入回归中。

回归系数的解释

回归估计方程：
$\hat y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2+...+\hat\beta_kx_k$
1. $\beta_0$ 的数值意义一般我们不考虑，因为所有的自变量不会同时为0。
2. $\hat\beta_m$ 是控制其他自变量不变的情况下， $x_m$ 每增加一个单位，对 $y$ 造成的变化，即 $\hat\beta_m=\frac{\partial y}{\partial x_m}$ ，因此多元线性回归模型中的回归系数，也称为偏回归系数。

什么时候取对数？

取对数意味着原被解释变量对解释变量的弹性，即百分比的变化而不是数值的变化。
目前，对于什么时候取对数还没有固定的规则，但是有一些经验法则：
1. 与市场价值有关的，例如：价格、销售额、工资等都可以取对数；
2. 以年度量的变量，如受教育年限、工作经历等通常不取对数。
3. 比例变量，如失业率、参与率等，两者皆可；
4. 变量取值必须是非负数，如果包含0，则可以对y取对数ln(1+y)。
取对数的好处：
1. 较弱数据的异方差性；
2. 如果变量本身不符合正态分布，取了对数后可能渐进服从正态分布；
3. 模型形式的需要，让模型具有经济学意义。

四类模型回归系数的解释

一元线性回归： $y=a+bx+\mu$ ， $x$ 每增加1个单位， $y$ 平均变化 $b$ 个单位；
双对数模型： $\ln y=a+b\ln x+\mu$ ， $x$ 每增加1%， $y$ 平均变化b%；
半对数模型： $y=a+b\ln x+\mu$ ， $x$ 每增加1%， $y$ 平均变化b/100个单位；
半对数模型： $\ln y=a+b\ln x+\mu$ ， $x$ 每增加1个单位， $y$ 平均变化（100b）%个单位。

虚拟变量

回归处理的是定量数据，那么定性数据怎么处理？
Stata对虚拟变量的处理很友好，可以使用这个软件进行分析。

单分类

我们要研究性别对于工资的影响：
$y=\beta_0+\delta_0 Female+\beta_1 x_1+\beta_2x_2+...+\beta_k x_k+\mu$
1. $Female_i=1$ 表示第 $i$ 个样本为女性；
2. $Female_i=0$ 表示第 $i$ 个样本为男性；
3. 核心解释变量： $F e m a l e$ ；
4. 控制变量： $x_m$ （和女性有关的变量）

$E(y|Female=1以及其他自变量给定)=\delta_0\times1+C$
$E(y|Female=0以及其他自变量给定)=\delta_0\times0+C$
$E (y ∣ F e m a l e = 1 以及其他自变量给定) - E (y ∣ F e m a l e = 0 以及其他自变量给定) =$ $\delta_0$ （ $\delta_0$ 显著异于0才有意义）
$\delta_0$ 可解释为：在其他自变量给定的情况下，女性的平均工资与男性的平均工资的差异。（男性平均工资为对照组）

多分类

多分类变量中一个是对照组，其余变量是虚拟变量，这是为了避免完全多重共线性的影响，所以引入虚拟变量的个数一般是分类数-1

拟合优度较低

回归分为解释性回归和预测性回归：
1. 预测性回归一般才会更看重 $R^2$
2. 解释性回归更多关注模型整体显著性、自变量的统计显著性和经济意义显著性
可以对模型进行调整，例如对数据取对数或者平方后再进行回归。
数据中可能存在异常值或者数据得分布季度不均匀。

拟合优度和调整后的拟合优度

我们引入的自变量越多，拟合优度会变大，显然这不是我们想要的。我们倾向于使用调整后的拟合优度，如果新引入的自变量对残差SSE的减少程度特别少，那么调整后的拟合有毒反而会减小。
$R^2=1-\frac{SSE}{SST}$ $R^2_{adjusted}=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$

标准化回归系数

为了更为精准的研究影响评价量的重要因素（去除量纲的影响），我们可以考虑使用标准化回归系数。
对数据进行标准化，就是将原始数据减去它的均数后，再除以该变量的标准差，回归后相应可得到标准化回归系数。
标准化回归系数的绝对值越大，说明对因变量的影响就越大（只关心显著的回归系数）
对数据进行标准化处理不会影响回归系数的标准误，也不会影响显著性。

异方差

在之前的回归分析中，我们都默认了扰动项 $\mu_i$ 是球形扰动项：满足“同方差”（ $E(\mu_i^2)=\sigma^2$ ）和“无自相关”（ $E(\mu_i \mu_j)=0$ ）两个条件。
横截面数据容易出现异方差的问题；时间序列数据容易出现自相关的问题。

异方差的后果

OLS估计出来的回归系数是无偏、一致的。
假设检验无法使用（构造的统计量失效了）。
OLS估计量不再是最有线性无偏估计。

检验异方差

可以画残差和拟合值（或自变量）的散点图，分布均匀则没有异方差。
BP检验和怀特检验。后者还包括平方项与交叉项，因此，BP检验可以看成怀特检验的特例。BP检验的Stata命令：estat hettest,rhs iid；怀特检验的Stata命令：estat imtest,white

解决异方差

使用OLS+稳健的标准误（用得多）
1. 任然使用OLS回归，但使用稳健标准误差。这是最简单，也是目前最通用的方法。只要样本容量较大，即使存在异方差的情况下，若使用稳健标准误，则所有参数估计、假设检验均可照常进行。
2. Stata命令：regress y x_1 x_2 … x_k ,robust
广义最小二乘法GLS
1. 原理：方差较大的数据包含的信息较少，我们可以给予信息量大的数据(即方差较小的数据更大的权重)
2. 缺点：我们不知道扰动项真实的协方差矩阵，因此我们只能用样本数据来估计，这样得到的结果不稳健，存在偶然性。

多重共线性

如果数据矩阵 $X$ 不满列秩，即某一解释变量可以由其他解释变量线性表出，则存在“严格多重共线性”（完全多重共线性）。
如果将第 $i$ 个解释变量 $x_i$ 对其余的解释变量 ${x_1,...,x_{i-1},x_{i+1},...,x_k\}$ 进行回归，所得到的可决系数较高，则存在近似多重共线性。

表现

虽然整个回归方程的 $R^2$ 较大、 $F$ 检验也很显著，但单个系数的 $t$ 检验却不显著，或者系数估计值不合理，甚至符号与理论预期相反。
增减解释变量使得系数估计值发生较大变化。

如何检验多重共线性

方差膨胀因子(VIF)：假设现在又 $k$ 个自变量，那么第 $m$ 个自变量的 $VIF_m=\frac{1}{1-R_{1\sim k/m}^2}$

$R_{1\sim k/m}^2$ 时将第 $m$ 个自变量作为因变量，对剩下的 $k - 1$ 个自变量回归得到的拟合优度。

$VIF_m$ 越大，说明第 $m$ 个变量和其他变量的相关性越大。
如果 $VIF=\max\{VIF_1,...,VIF_k\}>10$ ，则认为该回归方程存在严重的多重共线性。Stata命令：estat vif

多重共线性处理方法

如果只是为了预测，即不关心具体的回归系数，则存在多重共线性没有影响（假设整个方程是显著的）。这是因为，多重共线性的主要后果是使得对单个变量的贡献不准，但所有变量的整体效果仍可以较准确的估计。
如果关心具体的回归系数，但多重共线性并不影响所关心变量的显著性，那么也可以不必理会。即使在有方差膨胀的情况下，这些系数依然显著；如果没有多重共线性，则只会更加显著。
如果多重共线性影响到所关心变量（核心解释变量）的显著性，则需要增大样本容量，剔除导致严重共线性的变量（不要轻易删除，因为可能会有内生性的影响），或对模型设定进行修改。

解决多重共线性

向前逐步回归：将自变量逐个引入模型，每引入一个自变量后都要进行检验，显著时才加入回归模型。缺点：随着以后其他自变量的引入，原来显著的自变量也可能又变为不显著了，但并没有将其及时从回归方程中剔除掉。
向后逐步回归：与向前逐步回归相反，先将所有变量均放入模型，之后尝试将其中一个自变量从模型中剔除，看整个模型解释因变量的便宜是否有显著变异，之后将最没有解释力的那个自变量剔除；此过程不断迭代，直到没有自变量符合剔除的条件。缺点：一开始就把全部变量都引入回归方程，这样计算量比较大。

weixin_961876584

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

weixin_961876584 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。