数据预处理—4.为什么要趋近于正态分布?详解

多变量分析统计基于的假设

  1. 正态性
    当谈论正态性时,即数据应该看起来像正态分布。这很重要,因为几个统计检验都依赖于此(例如t统计)。单变量正态性虽然不能确保多变量正态性(这是我们想要的),但它有帮助。在大样本数据中,如果我们解决正态性,我们就避免了很多其他问题(例如异方差),所以这就是我们进行这种分析的主要原因。
  2. 同方差
    同方差性是指“假设因变量在预测变量范围内的方差水平相等。同方差是可取的,因为我们希望误差项在所有自变量的值上都是相同的。
  3. 线性度
    评估线性度最常见的方法是检查散点图并寻找线性模式。如果模式不是线性的,那么研究数据转换是值得的。
  4. 无相关误差。
    相关错误是在一个错误与另一个错误相关联时发生的。
    例如,如果一个正误差系统地产生一个负误差,则意味着这些变量之间存在关联。
    这通常发生在时间序列中,其中某些模式与时间相关。

1.为什么变量分布要呈现正态分布?

  我不是统计学科班,对于这些统计上的概念不是很理解。在特征工程中,我们为什么想要变量分布呈现正态分布?我觉得可以这么理解:单变量正态性虽然不能保证多变量的正态性,但是它是有帮助的。并且一般解决了正态性问题的话,就可以解决异方差或者线性度的问题。而且很多模型假设数据服从正态分布后,它的样本均值和方差就相互独立,这样就能更好的进行统计推断和假设验证。

2.判断数据是否服从正态分布的指标:偏态与峰度

  这里就不详细介绍了,可参考其他博客偏态与分布
  正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正(右)偏态分布;集中位置偏向数值大的一

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值