两组数的相关性判断

本文探讨了在IT数据分析中评估两个变量相关性时的重要性,首先关注显著水平(P值),通常小于0.05视为显著;然后是皮尔逊相关系数(R值),在显著性检验后衡量相关性强度。强调了显著性检验在确定相关性强度上的前置作用。
摘要由CSDN通过智能技术生成

看两者是否算相关要看两方面:显著水平以及相关系数
(1)显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的,那么多少才算显著,一般p值小于0.05就是显著了;如果小于0.01就更显著;例如p值=0.001,就是很高的显著水平了,只要显著,就可以下结论说:拒绝原假设无关,两组数据显著相关也说两者间确实有明显关系.通常需要p值小于0.1,最好小于0.05设甚至0.01,才可得出结论:两组数据有明显关系,如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关.起码不是线性相关.
(2)相关系数,也就是Pearson Correlation(皮尔逊相关系数),通常也称为R值,在确认上面指标显著情况下,再来看这个指标,一般相关系数越高表明两者间关系越密切.
R>0 代表连个变量正相关,即一个变大另一个随之变大

代码:

    from scipy.stats import pearsonr
     
    x = [0.5, 0.4, 0.6, 0.3, 0.6, 0.2, 0.7, 0.5]
    y = [0.6, 0.4, 0.4, 0.3, 0.7, 0.2, 0.5, 0.6]
    print(pearsonr(x, y))
     
    # 输出:(r, p)
    # r:相关系数[-1,1]之间
    # p:相关系数显著性

相关性的强度确实是用相关系数的大小来衡量的,但相关大小的评价要以相关系数显著性的评价为前提

因此,要先检验相关系数的显著性,如果显著,证明相关系数有统计学意义,下一步再来看相关系数大小,如果相关系数没有统计学意义,那意味着你研究求得的相关系数也许是抽样误差或者测量误差造成的,再进行一次研究结果可

能就大不一样,此时讨论相关性强弱的意义就大大减弱了。【“The p-values are not entirely reliable but are probably reasonable for datasets larger than 500 or so.”,p-value在500个样本值以上有较高的可靠性】

        在满足相关系数显著的条件下,相关系数越大,相关性就越强

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值