斯皮尔曼相关(Spearman correlation)系数来衡量两个变量的关联强度和方向

最新推荐文章于 2025-04-20 15:25:41 发布

还不秃顶的计科生

最新推荐文章于 2025-04-20 15:25:41 发布

阅读量2.9k

点赞数 34

分类专栏：机器学习文章标签：前端信息可视化 python windows excel matplotlib

本文链接：https://blog.csdn.net/weixin_74009895/article/details/141438478

版权

机器学习专栏收录该内容

90 篇文章

订阅专栏

基本含义：

斯皮尔曼相关系数（Spearman's rank correlation coefficient）是一种非参数统计方法，用于评估两个变量之间的单调关系。

斯皮尔曼相关性分析与皮尔逊之间的差异：

（1）研究方向

皮尔逊相关是关于两个随机变量之间的线性关系强度的统计度量(statistical measure)，而斯皮尔曼相关考察的是两者单调关系（monotonic relationship）的强度，通俗地说就是两者在变大或变小的趋势上多大程度上保持步调一致，哪怕没有保持比例关系。

（2）使用斯皮尔曼的场景

能够适用皮尔逊相关的场合当然是优先使用皮尔逊相关，但是在有些场合，皮尔逊相关所需要的前提假设不能得到满足，这是就可以考虑使用斯皮尔曼相关，比如说以下一些情况下：

①如果你的数据展现的是非线性关系，或者不是正态分布的。

②如果数据中有明显的异常值（outliers）。与皮尔逊相关不同，斯皮尔曼相关对于异常值不太敏感，因为它基于排序位次进行计算，实际数值之间的差异大小对于计算结果没有直接影响

公式属性：

（1）计算公式

①斯皮尔曼系数ρ

②p-value相关性是否具有统计显著性

是统计假设检验中的一个关键指标，它用于衡量观察到的结果在原假设为真的情况下出现的概率。

注：当我们使用 Python 的 scipy 库进行斯皮尔曼相关系数的计算时，p-value 是通过数值方法自动计算的。

（2）取值范围

①斯皮尔曼相关系数 ρ的取值范围在 -1 到 1 之间。

ρ=1：表示两个变量之间有完全的正单调关系。
ρ=−1：表示两个变量之间有完全的负单调关系。
ρ=0：表示两个变量之间没有单调关系。

②p-value

在统计检验中，我们通常会设定一个显著性水平 α（通常为 0.05）来判断是否拒绝原假设。

如果 p-value<α：我们有足够的证据拒绝原假设，即认为 X 和 Y 之间的相关性是显著的。
如果 p-value≥α：则我们无法拒绝原假设，认为没有足够证据说明 X 和 Y 之间有显著的相关性。

（3）具体解析

“di代表第i个样本在两个样本中的秩次差异”很多人无法理解到底是什么含义，下面我就用一个例子来给大家解释：

①第一步：对两个变量分别排序并赋予秩次

②第二步：计算秩次差异

③第三步：代入斯皮尔曼相关系数公式

计算得到的斯皮尔曼相关系数 ρ=−1，表示 X 和 Y 之间存在完全负的单调关系，即 X 增加时，Y 减少，且这种变化是严格的单调变化。

代码实现：

我们主要通过使用scipy库中的stats方法，它里面已经包装好了计算斯皮尔曼的方法，并返回斯皮尔曼系数spearman_corr以及p_value：

# Import necessary libraries
import pandas as pd
from scipy import stats

# Load the Excel file
file_path = '斯皮尔曼数据分析表.xlsx'
df = pd.read_excel(file_path)
# Display the first few rows of the data to understand its structure
df.head()

# Extract the 'X' and 'Y' columns from the dataframe
x = df['X']
y = df['Y']
# Calculate Spearman's rank correlation coefficient using scipy


spearman_corr, p_value = stats.spearmanr(x, y)
# Display the Spearman correlation coefficient and p-value
print(spearman_corr)
print(p_value)

结果：