线性回归的因变量是连续数值型变量。 回归的分类见113985634
-
R方—变量之间是否有相关性
【模型汇总表】中R表示拟合优度,值越接近1表示模型越好(但不能说他们之间不相关,可能是非线性相关),一元线性回归里,相关系数平方就是R方。
多元线性回归中当自变量超过5个时,看调整后的R方。且R^2只是说明列入模型的解释变量对被解释变量的联合影响程度较大,并非说明模型中的各个解释变量对被解释变量的影响程度也大
一元线性回归中看R方。 -
回归系数的T检验:
T统计量>T临值,拒绝原假设,表明X对Y有显著的影响。 -
方差分析F检验—变量之间是否有线性关系
【Anova表】表示分析结果,主要看的是F和Sig值,F值对应的Sig值小于0.05就可以认为回归方程是有用的
-
回归系数t检验—回归方程的系数是否显著
【系数表】sig均小于0.05表示自变量对因变量有显著影响。
SPSS操作过程:
多元线性回归多重线性检验
-
多重共线性是指各个解释变量之间有精确或者近似准确的线性关系。
不存在多重共线性则模型有效。 -
检验方法:
- 检验方法1:简单相关系数检验法
各解释变量相互之间的相关系数较高(接近于1),证实存在一定的多重共线性。 - 检验方法2:方差扩大(膨胀)因子法
方差豁达因子VIF大于等于10时,通常表明该解释变量与其余解释变量之间存在严重的多重共线性。当VIF值小于5的时候表示自变量之间不存在共线性。 - 检验方法3:直观判断法
- 检验方法4:逐步回归检测法
- 检验方法1:简单相关系数检验法
-
补救措施:
- 补救措施1:经验方法
经验方法1:剔除变量法
经验方法2:增大样本容量
经验方法3:变换模型法(常用方法,对各变量做对数变换,再进行估计)
经验方法4:利用非样本先验信息
经验方法5:截面数据与时序数据并用
经验方法6:变量变换 - 补救措施2:逐步回归方法
通过在逐步回归法删选并剔除引起多重共线性的变量。 - 补救措施3:岭回归法
与岭回归相似的方法还有Lasso回归,适应性Lasso回归。 - 补救措施4:因子分析
- 补救措施5:主成分分析
- 补救措施6:偏最小二乘法回归
- 补救措施1:经验方法
-
多重共线性诊断VIF结果显示
多元线性回归异方差性检验
-
异方差性是指随机误差项ui。
v a r ( u i ) = s i g m a 2 var(u_{i})=sigma^{2} var(ui)=sigma2表明是同方差性,也就是说相对于回归线被解释变量所有观测值的分散程度相同。
v a r ( u i ) = s i g m a i 2 var(u_{i})=sigma_{i}^{2} var(ui)=sigmai2表明是存在异方差性,异方差性指的是被解释变量观测值的分散程度是随解释变量的变化而变化 的。
不存在异方差性则模型有效。 -
检验方法:
- 检验方法1:图示检验法
残差的平方不随解释变量而变化,则表明随机误差项不存在异方差,否则存在异方差。 - 检验方法2:Goldfeld-Quandt检验(F检验)
适用于大样本。 - 检验方法3:White检验(卡方检验)
适用于大样本
不仅可以检验出是否存在异方差,还可以检验出是哪个变量引起的异方差。
nR^2>卡方临界值,则拒绝原假设,表明存在异方差。 - 检验方法4:ARCH检验(卡方检验)
针对时间序列的异方差检验
(n-p)R^2>卡方临界值,则拒绝原假设,表明存在异方差。 - 检验方法5:Glejser检验(卡方检验)
适用于大样本
做残差的绝对值对解释变量的回归
a b s ( e i ) = F ( X i ) abs(e_{i})=F(X_{i}) abs(ei)=F(Xi)
F(X_{i})的形式有
b e t a X i + v i ; a l p h a + b e t a X i + v i ; b e t a / X i + v i ; b e t a / s q r t ( X i ) + v i ; betaX_{i}+v_{i};alpha+betaX_{i}+v_{i};beta/X_{i}+v_{i};beta/sqrt(X_{i})+v_{i}; betaXi+vi;alpha+betaXi+vi;beta/Xi+vi;beta/sqrt(Xi)+vi;
根据R方,F,t等信息判断。若beta显著的不为0,则认为存在异方差性。
- 检验方法1:图示检验法
-
补救措施:
- 补救措施1:对模型变换法
- 补救措施2:加权最小二乘法WLS
- 补救措施3:模型的对数变换
对解释变量和被解释变量分别做对数变化。
自相关性检验
-
自相关性是指随机误差项 u i u_{i} ui之间存在相关关系。
C o v ( u i , u j ) = E ( u i u j ) = 0 ( i 不 等 于 j ) Cov(u_{i},u_{j})=E(u_{i}u_{j})=0 (i不等于j) Cov(ui,uj)=E(uiuj)=0(i不等于j)- 满足上式,表明是不存在自相关性,否则称存在自相关性。
- 自相关性一般出现在时间序列数据中,详情见https://editor.csdn.net/md/?articleId=109826058,但是截面数据也可能会出现,通常称其为空间自相关。
- 不存在自相关性则模型有效。
-
检验方法:
- 检验方法1:图示检验法
绘制以时间为横坐标,残差项为纵坐标的图形,如果残差随着时间的变化逐次有规律的变化,呈现锯齿形或者循环形状的变化,则判断残差存在相关,表明随机项存在自相关,否则不存在自相关。 - 检验方法2:D-W检验(除了检验是否存在自相关外,还可以计算一阶自相关系数)
下述为 DW检验的详细操作
-
D-W系数测试的是变量的误差项是否存在一阶自相关,(自相关的影响见https://editor.csdn.net/md/?articleId=109826058),如果d=2则基本没有自相关关系,d靠近0存在正的相关关系,d靠近4则有负的相关关系。
-
局限性
- 随机项存在一阶序列相关。
- 只适合于随机误差项为一阶自回归的情形。高阶线性自相关、一阶非线性自相关、移动平均形式的自相关不适用DW检验。
- 不适用于同时存在异方差和序列相关模型
- 存在两个不能确定的区域
- 适用于小样本但是不能小于15,且数据序列无缺失项。
-
当DW检验无法判断是否存在自相关性时,应该采用BG检验(检验方法3)。
- 检验方法3:breusch-Godfrey检验(LM检验)
适用于DW之外的数据检验。
- 检验方法1:图示检验法
-
补救措施:
- 补救措施1:广义差分法