【计量】回归背后的微操作
1. 变量的选择 与 模型的设定
https://zhuanlan.zhihu.com/p/50577508?yidian_s=mb
2. 变量的处理
2.1 常用的处理——中心化、标准化、归一化
目的:统一量纲(Scale)—— 可以理解成 100分制下,1 2分的扰动不算什么,但是这在5分制下会是很大的灾难,为了便于比较(或许是回归结果不太好呢,who knows,反正说是为了便于比较),所以需要统一量纲处理,核心目的就是为了保证系数可比性
- 定义:
- 中心化(Zero-centered or Mean-subtraction)
- 公式: c e t e r ( x ) = X − m e a n ( X ) ceter(x) = X-mean(X) ceter(x)=X−mean(X),也表示为 c _ x c\_x c_x
- 标准化(Standardization)
- 公式: z s c o r e ( X ) = ( X − m e a n ( X ) ) / s t d ( X ) zscore(X) = (X-mean(X))/std(X) zscore(X)=(X−mean(X))/std(X)
- 能够去除量纲(相对均值水平差了多少标准差),很多都有要求用到标准化 N(0,1) 分布特征(见 变量标准差为1即在计算距离时重要程度相同)
- 适合现代嘈杂大数据场景:大部分 data-driven method都会考虑到标准化
- 归一化(Normalization)
- 公式: m i n m a x ( X ) = ( X − m i n ( X ) ) / ( m a x ( X ) − m i n ( X ) ) minmax(X) = (X-min(X))/(max(X)-min(X)) minmax(X)=(X−min(X))/(max(X)−min(X))
- 重点在于消除量纲的影响,使不同变量具有可比性(最适用于绩效开发)
- 适合传统精确小数据场景:最大值与最小值非常容易受异常点影响,鲁棒性较差
- 中心化(Zero-centered or Mean-subtraction)
- Tips:
- 虚拟变量一般不需要处理(0/1有独特内涵)
- 各种处理一般不会影响相关性分析结果(指Pearson相关系数)
- 中介效应过小时,使用SPSS中标准化中介值,或者先标准化再检验(
这一条没有check过
) - 调节效应交互项系数过小但是显著,导致分解图斜率不明显时,可以考虑先标准化再调节效应检验
- 多重共线性——不一定是x之间,平方项(U shape or inverted-U shape)甚至是交乘项(Motivative effect)都有可能
- 对于平方项,通过变量的标准化/归一化/中心化处理,一般有可能缓解共线性的影响(仅是 x x x和 x 2 x^2 x2之间的)
- 对于交乘项,也有类似的处理 y = x + m + c _ x ∗ c _ m y = x + m + c\_x*c\_m y=x+m+c_x∗c_m,具体可见 连玉君老师专栏-交叉项的中心化问题
- 补充,SPSSAU提供了一个12个量纲处理的方案,比较全面,简图如下:
2.2 偏态的纠正——对数化处理
目的:将不满足正态性假设的解释变量“纠正”到正态的位置上。有时候对数化也用来处理极端数据,即某些离群值格外大/小,需要把这个difference缩小。
- 正偏/右偏(指长尾在右,峰顶偏左):众数<中位数<均值,skewness > 0
- l o g ( c + x ) log(c+x) log(c+x)
- 负偏/左偏(指长尾在左,峰顶偏右):均值<中位数<众数,skewness < 0
- − l o g ( c − x ) -log(c-x) −log(c−x)
- 偏度(skewness):描述非对称分布程度(偏斜方向和程度)
- 概率分布密度曲线相对于平均值不对称程度的特征数,由三阶中心距计算。
- 直观看就是密度函数曲线尾部的相对长度。
2.3 趋势的猜想——幂指处理
目的:一般不会乱加,考虑到 inverted-U 或 U 或 其它趋势才应用这个模型,一般需要理论支撑,具体的连玉君老师的专栏有很多介绍。To be honest,其实学术圈据说在卷三重幂的模型了hhh