标准差的定义如上,衡量一组数平均偏离这组数平均值的程度。
标准化(z变换):是把每个数减去均值、除以标准差,转化为均值为0、标准差为1 的一组数。
标准化可以理解为:标准化的值 = 每个数距离平均值有多少个标准差的大小,即可以理解为到达平均值的距离转化为有多少个标准差
均值为0理解:每个数都减去均值,所以新的数总体加起来为0,其均值就为0
标准差为1:每个数减去平均值之后,只是对整体的数做了平移,数与平均值之间的差距都没有变化,标准差还是原来的值,原始标准差 n = 原始数据距平均值的平均距离是n,但是,新的每个数除以标准差,相当于大家平均距离平均值是一个标准差(标准差本身就是:整体距离平均值的平均距离)的大小,现在就变为从之前衡量到平均值之间的数值大小,变为现在衡量到平均值之间的标准差个数的多少,相当于有一个新的概念,衡量每个数距离平均值有几个平均距离,把平均距离作为做个单位来衡量数与平均距离(平均水平)的差距多少,更能体现出每个样本之间的差距,也能把他们放在同一个维度上进行比较,相当于大家都用之前的标准差作为单位来衡量自己。
为什么一个距离平均值一个标准差范围内的概率是68%?想知道这个概率值是怎么得到的?
谢益辉: 从中心极限定理的模拟到正态分布 | 统计之都 (中国统计学门户网站,免费统计学服务平台)
中心极限定理
协方差:用来描述两组数据之间的相关性,即是否同时变大或者同时变小,如果同时变化或者同时变小,协方差是正的,如果两组数据变化方向相反,那么协方差是负的,变大变小都是以各自的平均值作为参考,大于平均值则是变大,小于平均值则是变小
协方差定义如下:
从公式中可以看出,当 ,
,或者两个都相反时,他们的积才为正数,表示他们是相关的,如果是X,Y 是向量,其中多个元素,那么就看上述计算出的
符号是正还是负,正代表他们正相关、负代表他们负相关,0代表没有关系
皮尔逊相关系数:X,Y 的协方差除X,Y的标准差,也是用来衡量两组数据的相关性(曲线的相相似程度)
可以看到皮尔逊相关系数和协方差的值符号上是相同的,即同正相关、负相关、或者不相关,区别在于两者的数值大小不同,协方差容易受到不同数据的单位的影响,即变化值大小的影响,而皮尔逊系数除两者数据的标准差(衡量一组数平均偏离这组数平均值的程度),消除了数据量级不同造成的影响,偏离较多,那么分母分子会同时大。两组量级不同的但变化趋势相同的数的皮尔逊系数基本相同,但协方差差距很大,具体可参考例子。