统计回归模型
(一)逐步回归
前提:当自变量x1,x2,x3…xn过多时,希望进行简化,找到对因变量贡献相对较大的自变量
需要计算出相关系数矩阵
然后根据自变量的贡献系数
找出贡献最大的自变量,与贡献最小的自变量,再进一步与F检验的Fin,Fout两个临界值比较,
判断是否能被选入,是否被剔除
再选出一个自变量之后,该自变量变为主元,对相关系数矩阵进行变化
在进行下一轮判断,直到所有的自变量都被确定
(二)关于方差
一般假设残差要满足正态分布,需要进行残差检验,
最直观的就是起码残差要有正有负,不能全为正值或负值,且分布不能与自变量之间存在关系
(三)相关系数R和F检验的F值越大越好
(四)Logit回归
适用于二分类问题
引入π(x)=p(y=1|x),与logit变换log(π(x)/(1-π(x)),一些注意的问题
1.如果自变量xi有三种情况及以上,即比如尺码有小中大,此时需要引入亚变量,
例如xi变为[xi0,xi1].即[0,0]表示小,[0,1]表示中,[1,0]表示大
2.log(π(x)/(1-π(x))=A(x),A(x)的次数依情况和数据而定
是否引入高次项要根据似然比检验统计量
3.回归系数在logit模型中有可解释的意义
Odd(x)=π(x)/(1-π(x),odd(x)为发生比,当A(x)=ax+b时.odd(x)=exp(ax+b)
Odd(x+1)/odd(x)=exp(a),即自变量变化1各单位,发生比的变化情况
(五)自相关.同一变量顺序观测值之间存在相关性,这时候用基本的回归模型就已经不行了.
比如体重,就是一个自相关的自变量,t时刻的体重与t-1时刻的体重是相关的
先有DW检验判断是否存在自相关,根据值进行判断落在不相干,正自相关,负自相关
然后对原有的线性回归进行修订
(六)考虑交互项,如果模型存在很大的可以改进的空间,可以引入类似于x1x2,x2x3,考虑他们的交互作用,重新进行拟合