读书笔记——多元线性回归

1、查文献的极端重要性

   不论在建立研究模型、选择自变量和因变量,还是在解释模型的时候,只有通过查阅文献,才能建立理论支撑(theoreticalsupport)。

2、关于Samplesize

   小的样本(不足20个),只能做一元线性回归。

   非常大的样本(1,000个以上),会使得显著性检验过度敏感(overlysensitive),这可能意味着变量之间的各种关系可能都很容易显著。

   一般的规则是样本数和变量之比不应该低于5:1,这是底线。如果能够达到15至20比1就更好了。但是,如果要用逐步进入法(stepwise),则应达到50:1.

3、关于添加虚拟变量

   如果因变量是类别变量,可以用鉴别分析或者逻辑回归。如果自变量是类别变量,添加相应的虚拟变量(dummyvariables)是解决问题的好办法。

   如果某一个自变量是名义变量,且有k个取值,我们可以定义k-1个虚拟变量,分别以0和1代表是否取到前k-1个值。当取到第k个值时,只需要令前面k-1个虚拟变量的值都是0就可以了(indicatorcoding)。这时不同取值形成平行线族。另一种办法是当取到第k个值时,令前面k-1个虚拟变量的值都是-1(effectscoding)。

4、用多项式检验可能存在的曲线(非线性)关系

   通过添加多项式,可以使曲线关系线性化(linearizing a curvilinearrelationship),在实际应用中,一般最多添加到3次方就好了,这种办法的缺点突出体现在增加自由度(每增加一项,就需要一个自由度)和可能带来多重共线性这两点。

5、处理交互作用

   交互作用是很头疼的事情。但当自变量多于一个的时候,必须考虑调节作用(moderatoreffects)。当存在交互作用的时候,即

Y=b0+b1X1+b2X2+b3X1X2

(注意X1和X2的交互作用是用这两个变量取值的乘积来表示的。意思是一个变量的变化影响到另一个变量的回归系数)

   这时候,不论X2的取值如何,X1的总的影响可以用下面这个式子来度量

  b1total=b1+b3X2(用平均值来度量X2)

   在实证研究中,对交互项还可以进行分解。办法如下(更多情况可以参考寿志刚等人发表在《管理世界》2008年第2期上的一篇论文,需要注意的是这个研究有大的样本支撑)。

   首先根据研究设计确定调节变量, Jaccard &Tur-risi提供了交互项分解的惯例,我们将在这个调节变量上高( 低)于均值一个标准差的区域设定为高(低)区域,其余为中等区域。然后,分别对这些区域中的样本,拿掉调节变量跑线性回归,将得到的回归系数相比,就可以得到调节变量的不同取值下,其余的自变量对因变量的影响。

   如果存在高阶的交互作用,就要定义一级调节变量( first- order moderator)和二级调节变量( second-order moderator)。使用以上类似的分解方法,组成一个 2× 2的矩阵,分别对每一种情况跑出回归系数,然后进行比较。在呈现的时候用图表的形式往往是好的办法。

在上面提到的那篇文章中,作者谈到某种情况下,某个变量对另一个变量的影响时说“呈现出负向的影响趋势(尽管并不显著,但趋势是负向的)”。看了这个我就不知道说什么好了。

6、残差分析

   不会玩残差,肯定不能算精通回归分析。

   以学生化残差(studentized residual)为纵轴,以不同的值为横轴(如因变量的估计值、各个自变量的估计值等),可以得到不同的分析工具,如残差分布图(residualplot)、(partial regression plots)、残差直方图(histogram ofresiduals)、残差正态概率分布图(normal probabilityplots)等。用这些图,可以干下面的事情。

  • 用残差分布图可以检查在因变量和自变量组之间是否存在未被分析的线性关系或者曲线关系。如果存在,可以用变量变换(如引入多项式)或者非线性回归的办法解决。用残差偏回归分布图可以检查在因变量和某一个自变量之间是否存在未被分析的线性关系或者曲线关系。
  • 是否满足方差齐性假设,典型的形状是三角形或者菱形的残差分布图。因为受到非正态偏差的影响较小,所以Levenetest受到比较广泛的使用。如果不满足,可以采用加权回归(WLS)或者所谓的“變異數穩定變換”(variancestabilizing transformations)。
  • 残差的独立性,只要残差分布图存在着一个明确的形状,就意味着残差与因变量可能不独立。同样的道理,用残差偏回归分布图可以检查残差对于任意一个指定的自变量是否独立。如果存在这种情况,可以用变量变换的办法来试试能否解决。
  • 用残差直方图和残差正态概率分布图可以检查是否满足误差项分布的正态性假设。

   此外,残差分析还可以用来抓作弊。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值