【计量】回归背后的微操作——论文自救记录(进行中)

【计量】回归背后的微操作

1. 变量的选择 与 模型的设定

https://zhuanlan.zhihu.com/p/50577508?yidian_s=mb

2. 变量的处理

2.1 常用的处理——中心化、标准化、归一化

目的:统一量纲(Scale)—— 可以理解成 100分制下,1 2分的扰动不算什么,但是这在5分制下会是很大的灾难,为了便于比较(或许是回归结果不太好呢,who knows,反正说是为了便于比较),所以需要统一量纲处理,核心目的就是为了保证系数可比性

  • 定义:
    • 中心化(Zero-centered or Mean-subtraction
      • 公式: c e t e r ( x ) = X − m e a n ( X ) ceter(x) = X-mean(X) ceter(x)=Xmean(X),也表示为 c _ x c\_x c_x
    • 标准化(Standardization
      • 公式: z s c o r e ( X ) = ( X − m e a n ( X ) ) / s t d ( X ) zscore(X) = (X-mean(X))/std(X) zscore(X)=(Xmean(X))/std(X)
      • 能够去除量纲(相对均值水平差了多少标准差),很多都有要求用到标准化 N(0,1) 分布特征(见 变量标准差为1即在计算距离时重要程度相同
      • 适合现代嘈杂大数据场景:大部分 data-driven method都会考虑到标准化
    • 归一化(Normalization
      • 公式: m i n m a x ( X ) = ( X − m i n ( X ) ) / ( m a x ( X ) − m i n ( X ) ) minmax(X) = (X-min(X))/(max(X)-min(X)) minmax(X)=(Xmin(X))/(max(X)min(X))
      • 重点在于消除量纲的影响,使不同变量具有可比性(最适用于绩效开发)
      • 适合传统精确小数据场景:最大值与最小值非常容易受异常点影响,鲁棒性较差
  • Tips:

2.2 偏态的纠正——对数化处理

目的:将不满足正态性假设的解释变量“纠正”到正态的位置上。有时候对数化也用来处理极端数据,即某些离群值格外大/小,需要把这个difference缩小。

  • 正偏/右偏(指长尾在右,峰顶偏左):众数<中位数<均值,skewness > 0
    • l o g ( c + x ) log(c+x) log(c+x)
  • 负偏/左偏(指长尾在左,峰顶偏右):均值<中位数<众数,skewness < 0
    • − l o g ( c − x ) -log(c-x) log(cx)
  • 偏度(skewness):描述非对称分布程度(偏斜方向和程度)
    • 概率分布密度曲线相对于平均值不对称程度的特征数,由三阶中心距计算。
    • 直观看就是密度函数曲线尾部的相对长度。

2.3 趋势的猜想——幂指处理

目的:一般不会乱加,考虑到 inverted-U 或 U 或 其它趋势才应用这个模型,一般需要理论支撑,具体的连玉君老师的专栏有很多介绍。To be honest,其实学术圈据说在卷三重幂的模型了hhh

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值