基本含义:
斯皮尔曼相关系数(Spearman's rank correlation coefficient)是一种非参数统计方法,用于评估两个变量之间的单调关系。
斯皮尔曼相关性分析与皮尔逊之间的差异:
(1)研究方向
皮尔逊相关是关于两个随机变量之间的线性关系强度的统计度量(statistical measure),而斯皮尔曼相关考察的是两者单调关系(monotonic relationship)的强度,通俗地说就是两者在变大或变小的趋势上多大程度上保持步调一致,哪怕没有保持比例关系。
(2)使用斯皮尔曼的场景
能够适用皮尔逊相关的场合当然是优先使用皮尔逊相关,但是在有些场合,皮尔逊相关所需要的前提假设不能得到满足,这是就可以考虑使用斯皮尔曼相关,比如说以下一些情况下:
①如果你的数据展现的是非线性关系,或者不是正态分布的。
②如果数据中有明显的异常值(outliers)。与皮尔逊相关不同,斯皮尔曼相关对于异常值不太敏感,因为它基于排序位次进行计算,实际数值之间的差异大小对于计算结果没有直接影响
公式属性:
(1)计算公式
①斯皮尔曼系数ρ
②p-value相关性是否具有统计显著性
是统计假设检验中的一个关键指标,它用于衡量观察到的结果在原假设 为真的情况下出现的概率。
注:当我们使用 Python 的 scipy
库进行斯皮尔曼相关系数的计算时,p-value 是通过数值方法自动计算的。
(2)取值范围
①斯皮尔曼相关系数 ρ的取值范围在 -1 到 1 之间。
- ρ=1:表示两个变量之间有完全的正单调关系。
- ρ=−1:表示两个变量之间有完全的负单调关系。
- ρ=0:表示两个变量之间没有单调关系。
②p-value
在统计检验中,我们通常会设定一个显著性水平 α(通常为 0.05)来判断是否拒绝原假设。
- 如果 p-value<α:我们有足够的证据拒绝原假设,即认为 X 和 Y 之间的相关性是显著的。
- 如果 p-value≥α:则我们无法拒绝原假设,认为没有足够证据说明 X 和 Y 之间有显著的相关性。
(3)具体解析
“di代表第i个样本在两个样本中的秩次差异”很多人无法理解到底是什么含义,下面我就用一个例子来给大家解释:
①第一步:对两个变量分别排序并赋予秩次
②第二步:计算秩次差异
③第三步:代入斯皮尔曼相关系数公式
计算得到的斯皮尔曼相关系数 ρ=−1,表示 X 和 Y 之间存在完全负的单调关系,即 X 增加时,Y 减少,且这种变化是严格的单调变化。
代码实现:
我们主要通过使用scipy库中的stats方法,它里面已经包装好了计算斯皮尔曼的方法,并返回斯皮尔曼系数spearman_corr以及p_value:
# Import necessary libraries
import pandas as pd
from scipy import stats
# Load the Excel file
file_path = '斯皮尔曼数据分析表.xlsx'
df = pd.read_excel(file_path)
# Display the first few rows of the data to understand its structure
df.head()
# Extract the 'X' and 'Y' columns from the dataframe
x = df['X']
y = df['Y']
# Calculate Spearman's rank correlation coefficient using scipy
spearman_corr, p_value = stats.spearmanr(x, y)
# Display the Spearman correlation coefficient and p-value
print(spearman_corr)
print(p_value)
结果:
①斯皮尔曼相关系数 ρ 的计算结果为-0.8999999999999998,这表明变量 XXX 和 YYY 之间存在强烈的负单调关系。当 XXX 增加时, YYY 通常会减少。
②p-value = 0.037 < 0.05:这意味着我们有足够的证据拒绝原假设,即可以认为变量 X 和 Y 之间存在显著的相关性(负相关),而不是由于随机波动造成的。
③注意点
因为python代码实现的过程中是直接导入库函数进行计算的,所以内部的一些细节会有所差异:
- 通过手算的结果是 ρ=−1 表示 X 和 Y 之间有完全的负单调关系。
- Python 计算得到的 ρ=−0.9可能是由于浮点数精度问题或秩次计算细节的差异。
资源获取:
通过网盘分享的文件:斯皮尔曼数据分析表.zip
链接: https://pan.baidu.com/s/1ULpMNeax9RPBqdoRKnT_EA?pwd=iibr 提取码: iibr
--来自百度网盘超级会员v5的分享
好啦,希望能够帮助到大家!