多元线性回归分析
数据类型不同选择的不通预测模型
数据获取方式
模型预测存在内生性
回归系数的解释
四种回归数据的解释
box-cox变换
啥时候构造函数取对数(不能很好的服从正态分布):
虚拟变量的解释
多变量虚拟变量的设置
stata中的数据处理
数据描述
数据独特编码:
对于每一个定型的独特编码可以进行饼状图进行显示,更价值观(像这样):
数据指标名称的解释
异方差检验和修正
异方差检验
图形化
BP检验
原假设:扰动项不存在异方差
P值小于0.05,说明在95%的置信水平下拒绝原假设,即我们认为扰动项存在异方差。
怀特检验(和图像结合使用)
异方差解决
OLS和稳健的标准误
多重共线性
多重共线性的判定
处理方式
不能出现完全共线性,逗号为英文的:
回归
注意:回归之前最好不要进行归一化和标准化,第一:无法解释变量,第二:可能造成系数影响使正负难以区分。
构造函数,实际上可以加上ln函数,不过要简单说明box-cox:
y
1
=
β
0
+
∑
i
=
1
m
β
i
x
i
+
ϵ
i
y_1=\beta_0+\sum_{i=1}^m\beta_ix_i+\epsilon_i
y1=β0+i=1∑mβixi+ϵi
F(19,826)就是F检验构造的联合显著性检验:
β
1
=
β
2
=
β
3
=
.
.
.
=
β
m
=
0
\beta_1=\beta_2=\beta_3=...=\beta_m=0
β1=β2=β3=...=βm=0
Prob > F就是P值
下表中的
P
>
∣
t
∣
P>|t|
P>∣t∣就是单个变量对应的P值,P值小于0.05,代表在95%置信水平下,该回归系数显著的异于0
根据每个变量的p值确定是否保留变量,从而进行解释变量。
对于R^2较小的解释
标准化回归
若要得到那个特征值对于结果值有最重要的程度,我们要消去量纲对于参数的影响,就是标准化回归