两组数的相关性判断

最新推荐文章于 2024-12-09 14:37:39 发布

计算之道

最新推荐文章于 2024-12-09 14:37:39 发布

阅读量4.3k

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_45936544/article/details/134154506

版权

Python 专栏收录该内容

17 篇文章

订阅专栏

本文探讨了在IT数据分析中评估两个变量相关性时的重要性，首先关注显著水平（P值），通常小于0.05视为显著；然后是皮尔逊相关系数（R值），在显著性检验后衡量相关性强度。强调了显著性检验在确定相关性强度上的前置作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

看两者是否算相关要看两方面：显著水平以及相关系数
（1）显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的,那么多少才算显著,一般p值小于0.05就是显著了；如果小于0.01就更显著；例如p值=0.001,就是很高的显著水平了,只要显著,就可以下结论说：拒绝原假设无关,两组数据显著相关也说两者间确实有明显关系.通常需要p值小于0.1,最好小于0.05设甚至0.01,才可得出结论：两组数据有明显关系,如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关.起码不是线性相关.
（2）相关系数,也就是Pearson Correlation(皮尔逊相关系数),通常也称为R值,在确认上面指标显著情况下,再来看这个指标,一般相关系数越高表明两者间关系越密切.
R>0 代表连个变量正相关,即一个变大另一个随之变大

代码：

    from scipy.stats import pearsonr

    x = [0.5, 0.4, 0.6, 0.3, 0.6, 0.2, 0.7, 0.5]
    y = [0.6, 0.4, 0.4, 0.3, 0.7, 0.2, 0.5, 0.6]
    print(pearsonr(x, y))

    # 输出:(r, p)
    # r:相关系数[-1，1]之间
    # p:相关系数显著性

相关性的强度确实是用相关系数的大小来衡量的，但相关大小的评价要以相关系数显著性的评价为前提

因此，要先检验相关系数的显著性，如果显著，证明相关系数有统计学意义，下一步再来看相关系数大小，如果相关系数没有统计学意义，那意味着你研究求得的相关系数也许是抽样误差或者测量误差造成的，再进行一次研究结果可

能就大不一样，此时讨论相关性强弱的意义就大大减弱了。【“The p-values are not entirely reliable but are probably reasonable for datasets larger than 500 or so.”，p-value在500个样本值以上有较高的可靠性】

在满足相关系数显著的条件下，相关系数越大，相关性就越强