理解标准差、标准化、协方差、正态分布

标准差的定义如上,衡量一组数平均偏离这组数平均值的程度。

标准化(z变换):是把每个数减去均值、除以标准差,转化为均值为0、标准差为1 的一组数。

标准化可以理解为:标准化的值 = 每个数距离平均值有多少个标准差的大小,即可以理解为到达平均值的距离转化为有多少个标准差

均值为0理解:每个数都减去均值,所以新的数总体加起来为0,其均值就为0

标准差为1:每个数减去平均值之后,只是对整体的数做了平移,数与平均值之间的差距都没有变化,标准差还是原来的值,原始标准差 n = 原始数据距平均值的平均距离是n,但是,新的每个数除以标准差,相当于大家平均距离平均值是一个标准差(标准差本身就是:整体距离平均值的平均距离)的大小,现在就变为从之前衡量到平均值之间的数值大小,变为现在衡量到平均值之间的标准差个数的多少,相当于有一个新的概念,衡量每个数距离平均值有几个平均距离,把平均距离作为做个单位来衡量数与平均距离(平均水平)的差距多少,更能体现出每个样本之间的差距,也能把他们放在同一个维度上进行比较,相当于大家都用之前的标准差作为单位来衡量自己。

为什么一个距离平均值一个标准差范围内的概率是68%?想知道这个概率值是怎么得到的?

一文搞懂“正态分布”所有需要的知识点 - 知乎

卡尔曼滤波:从入门到精通 - 知乎

谢益辉: 从中心极限定理的模拟到正态分布 | 统计之都 (中国统计学门户网站,免费统计学服务平台)

中心极限定理

协方差:用来描述两组数据之间的相关性,即是否同时变大或者同时变小,如果同时变化或者同时变小,协方差是正的,如果两组数据变化方向相反,那么协方差是负的,变大变小都是以各自的平均值作为参考,大于平均值则是变大,小于平均值则是变小

协方差定义如下:

 从公式中可以看出,当X_{i} < {\overline{X}} ,Y_{i} < {\overline{Y}},或者两个都相反时,他们的积才为正数,表示他们是相关的,如果是X,Y 是向量,其中多个元素,那么就看上述计算出的\sum (X_{i} - {\overline{X}}) (Y_{i} - {\overline{Y}})符号是正还是负,正代表他们正相关、负代表他们负相关,0代表没有关系

 皮尔逊相关系数:X,Y 的协方差除X,Y的标准差,也是用来衡量两组数据的相关性(曲线的相相似程度)

 可以看到皮尔逊相关系数和协方差的值符号上是相同的,即同正相关、负相关、或者不相关,区别在于两者的数值大小不同,协方差容易受到不同数据的单位的影响,即变化值大小的影响,而皮尔逊系数除两者数据的标准差(衡量一组数平均偏离这组数平均值的程度),消除了数据量级不同造成的影响,偏离较多,那么分母分子会同时大。两组量级不同的但变化趋势相同的数的皮尔逊系数基本相同,但协方差差距很大,具体可参考例子

参考:如何通俗易懂地解释「协方差」与「相关系数」的概念? - 知乎

深入理解协方差 - 日月的弯刀 - 博客园

  • 8
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值