文章目录
0. 引言
用一个简单的例子来解释皮尔逊相关系数的计算方法。
想象你和你的朋友在做一个有趣的游戏:你们分别有一堆卡片,每张卡片上都写着两件事情的信息,比如一张卡片上写着“看了1小时电视”和“得了10分”,另一张写着“看了2小时电视”和“得了20分”,以此类推。
现在,我们想知道,看电视时间和得分之间是否有某种规律,比如看得越多时间电视,分数就越高。皮尔逊相关系数就是帮助我们找出这种规律的工具。
这里的计算方法有点像魔法,让我解释一下:
-
平均值:首先,我们找出所有看电视时间的平均(平均看了多久电视)和所有分数的平均(平均得了多少分)。
-
相互比较:然后,我们看每张卡片上的时间和分数比平均值多了还是少了。比如,一张卡片上写着“看了2小时电视”,如果平均看电视时间是1.5小时,那这张卡片上的时间就比平均多了0.5小时。
-
乘法和求和:接下来,我们把每张卡片上的时间比平均多了多少和分数比平均多了多少相乘,然后把这些乘积加起来。
-
最后的魔法:最后,还有一些复杂的数学魔法,我们用这些乘积做一些特别的计算,最终得到一个数字,这个数字就是皮尔逊相关系数。
如果这个数字接近1,就像魔法一样告诉我们,看电视时间和分数有很强的关联:看得越多,分数越高。如果这个数字接近0,就意味着看电视时间和分数之间没有什么特别的关系。这个数字接近1,就告诉我们,看电视时间和分数有很强的负相关:看得越多,分数越低。
就这样,通过这种有点像魔法的计算,我们可以知道两件事情之间是否有某种规律性的联系!
0.1 计算公式
皮尔逊相关系数的计算公式如下:
r = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} r=∑(x