第五章 相关系数学习笔记

在这里插入图片描述

两种最为常用的相关系数:皮尔逊 person相关系数斯皮尔曼spearman等级相关系数

总体和样本

总体——所要考察对象的全部个体叫做总体. 我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本.
使用样本均值、样本标准差来估计总体的均值(平均 水平)和总体的标准差(偏离程度)。
例子: 我国10年进行一次的人口普查得到的数据就是总体数据。
大家自己在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。

总体皮尔逊Person相关系数

在这里插入图片描述

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。

样本皮尔逊Person相关系数

在这里插入图片描述

主要区别:样本皮尔逊相关系数/n-1;
总体皮尔逊相关系数/n;

clear;clc
load 'physical fitness test.mat'  %文件名如果有空格隔开,那么需要加引号
%% 统计描述
MIN = min(Test);  % 每一列的最小值
MAX = max(Test);   % 每一列的最大值
MEAN = mean(Test);  % 每一列的均值
MEDIAN = median(Test);  %每一列的中位数
SKEWNESS = skewness(Test); %每一列的偏度
KURTOSIS = kurtosis(Test);  %每一列的峰度
STD = std(Test);  % 每一列的标准差
RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]  %将这些统计量放到一个矩阵中中表示

相关性可视化

在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系
这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图

通过绘制散点图可以很容易地判定两个数据对象x和y之间的相关性。
在这里插入图片描述

容易忽视和犯错的点

(1)如果两个变量本身就是线性的关系, 那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况 下,即使算出皮尔逊相关系数,发现很大, 也不能说明那两个变量线性相关,甚至不能 说他们相关,我们一定要画出散点图来看才行。

对相关系数大小的解释

在这里插入图片描述

皮尔逊相关系数的计算

bash R = corrcoef(Test)   % correlation coefficient

corrcoef
相关系数
在这里插入图片描述
https://ww2.mathworks.cn/help/matlab/ref/corrcoef.html

Test中六个指标的相关系数:
在这里插入图片描述
如何美化相关系数:略之 (●ˇ∀ˇ●)

对皮尔逊相关系数进行假设检验

在这里插入图片描述


关于t分布
(概率论的简单回顾(●ˇ∀ˇ●),可自行跳过,留给像我一样刚学就忘的小傻子

定义:
在这里插入图片描述
设随机变量 T ∼ t_{n}, 则其密度函数为:
在这里插入图片描述
该密度函数的图形如下
在这里插入图片描述
t_{n}的密度函数与标准正态分布 N(0, 1) 密度很相似
在这里插入图片描述
此处φ(x) 是 N(0, 1) 变量的密度函数。在这里插入图片描述
c = t ( n ) ( α / 2 ) 为自由度为n的t分布的双侧 α 分位数(如上图所示)。
性质:
在这里插入图片描述
原博传送门→:https://www.baidu.com/link?url=hrlEo536ceXNDBWTqE9QdcWSJHqSPkOKGvALHbwdWd-QC0_SO-aCh2n3yHZ2GqJJbL–J-abgpSuhX0Ec9UY4R0yKS2p7-gYf9sXwVMtVhS&wd=&eqid=f9b4869000152f50000000035e37dff4
侵删。


在这里插入图片描述

%% 假设检验部分
x = -4:0.1:4;
y = tpdf(x,28);  %求t分布的概率密度值 28是自由度  
figure(1)
plot(x,y,'-')
grid on  % 在画出的图上加上网格线
hold on  % 保留原来的图,以便继续在上面操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

更好用的方法:p值判断法

%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
% 在EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01  % 标记3颗星的位置
(P < 0.05) .* (P > 0.01)  % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % % 标记1颗星的位置

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

皮尔逊相关系数假设检验的条件

第一,实验数据通常假设是成对的来自于正态分布的总体。
第二,实验数据之间的差距不能太大。
第三:每组样本之间是独立抽样的。

如何检验数据是否是正态分布?

1.正态分布JB检验(大样本n>30
在这里插入图片描述

% 正态分布的偏度和峰度
x = normrnd(2,3,100,1);   % 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x)  %偏度
kurtosis(x)  %峰度
qqplot(x)

在这里插入图片描述

MATLAB中进行JB检验的语法:[h,p] = jbtest(x,alpha)
当输出h等于1时,表示拒绝原假设;
h等于0则代表不能拒绝原假设。
alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95 x就是我们要检验的随机变量,注意这里的x只能是向量。

% 检验第一列数据是否为正态分布
[h,p] = jbtest(Test(:,1),0.05)
[h,p] = jbtest(Test(:,1),0.01)

% 用循环检验所有列的数据
n_c = size(Test,2);  % number of column 数据的列数
H = zeros(1,6);  % 初始化节省时间和消耗
P = zeros(1,6);
for i = 1:n_c
    [h,p] = jbtest(Test(:,i),0.05);
    H(i)=h;
    P(i)=p;
end
disp(H)
disp(P)


2.1小样本3≤n≤50:Shapiro-wilk检验
2.2 Q-Q图

qqplot(Test(:,1))

在这里插入图片描述

斯皮尔曼spearman相关系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
法2:

%% MATLAB求解皮尔逊相关系数
RX = [2 5 3 4 1]
RY = [1 4.5 3 4.5 2]
R = corrcoef(RX,RY)

等价于

coeff = corr(X , Y , ‘type’ , ‘Spearman’)

运行结果
在这里插入图片描述
在这里插入图片描述

MATLAB中计算斯皮尔曼相关系数

两种用法
(1)corr(X , Y , ‘type’ , ‘Spearman’) 这里的X和Y必须是列向量哦~
(2)corr(X, ‘type’ , ‘Spearman’) 这时计算X矩阵各列之间的斯皮尔曼相关系数

X = [3 8 4 7 2]'  % 一定要是列向量哦,一撇' 表示求转置 
Y = [5 10 9 10 6]' 
coeff= corr(X , Y , 'type' , 'Spearman')

斯皮尔曼相关系数的假设检验

分为小样本和大样本两种情况: 小样本情况,即𝒏𝟑𝟎时,直接查临界值表即可。
在这里插入图片描述

两种相关系数计算结果的对比

在这里插入图片描述

斯皮尔曼相关系数和皮尔逊相关系数选择:
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用 spearman相关系数也可以,就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。

定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
例如:优、良、差; 我们可以用1表示差、2表示良、3表示优,但请注意,用2除以1得出的2并不 代表任何含义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序。
注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系 (例如线性函数、指数函数、对数函数等)就能够使用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值