建模学习笔记(五)相关系数——pearson和spearman相关系数

本文详细介绍了统计分析中的关键概念,包括总体与样本、协方差、皮尔逊相关系数及其显著性检验。强调了在计算相关系数前需确认线性关系,并探讨了皮尔逊与斯皮尔曼相关系数的应用场景。同时,提供了使用Matlab和Excel进行相关统计分析的方法,以及正态分布检验和非线性关系的考量。
摘要由CSDN通过智能技术生成

总体和样本

总体——所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本.
我们常常通过计算这些抽取的样本的统计量,来估计总体的统计量:
例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)

总体皮尔逊Pearson相关系数

在这里插入图片描述

  • 协方差

    • X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值。
      如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
    • 注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
      皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
      在这里插入图片描述
  • 相关系数

    这里的相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉我们他俩相关程度如何。
    在这里插入图片描述
    (1)非线性相关也会导致线性相关系数很大,例如图2。
    (2)离群点对相关系数的影响很大,例如图3。
    (3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。
    (4)相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关),例如图5。

事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)

  • 描述性统计

    • Matlab
      MIN = min(Test); % 每一列的最小值
      MAX = max(Test); % 每一列的最大值
      MEAN = mean(Test); % 每一列的均值
      MEDIAN = median(Test); %每一列的中位数
      SKEWNESS = skewness(Test); %每一列的偏度
      KURTOSIS = kurtosis(Test); %每一列的峰度
      STD = std(Test); % 每一列的标准差
      RESULT=[MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]%将这些统计量放到一个矩阵中表示

    • EXCEL数据分析工具
      在这里插入图片描述
      得到的表格数据需要精简处理再放到论文中。

    • SPSS
      在这里插入图片描述

  • 矩阵散点图:

    在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系,这里使用SPSS比较方便:
    图形 ‐ 旧对话框 ‐ 散点图/点图 ‐ 矩阵散点图

  • 皮尔逊相关系数的计算

    • Matlab
      corrcoef函数:correlation coefficient相关系数
    1. R = corrcoef(A) % 返回 A 的相关系数的矩阵,其中 A 的列表示随机变量(指标),行表示观测值(样本)。(常用)
    2. R = corrcoef(A,B) %返回两个随机变量 A 和 B (两个向量)之间的系数。
    • 美化相关系数表
      利用EXCEL中的色阶
      在这里插入图片描述
    • 对皮尔逊相关系数进行假设检验
      • 常规算法
        在这里插入图片描述
        在这里插入图片描述
        常见的置信水平有三个:90%、95%、99% 其中95%是最常用的
        t分布表:https://wenku.baidu.com/view/d94dbd116bd97f192279e94a.html
        以95%为例,查表可知我们举的例子的临界值为2.048,因此可以做出接受与和拒绝域:
        在这里插入图片描述
        t*=3.05505>2.048 因此我们可以下结论:
        在95%的置信水平上,我们拒绝原假设 H 0 H_0 H0 r = 0 r=0 r=0,因此r是显著的不为0的。
    • P值判断法
      在这里插入图片描述
      计算各列之间的相关系数以及p值:
      一行代码:[R,P] = corrcoef(Test) % R返回的是相关系数表,P返回的是对应于每个相关系数的p值
      小补充:0.5、0.5* 、0.5**、0.5***的含义是分别是:不相关、 p<0.1、 p<0.05、 p<0.01
      另外,Matlab计算的是双侧检验的p值,如果需要单侧的话只需要除以2即可。
      利用spss软件可以让生成的数据中含有 ’ * ’ :
      分析-相关-双变量-选择相关系数-选择双尾/单尾(表示双侧/单侧检验)
      将spss中得到的表格数据处理一下,p值只是一个用来比较衡量的工具,只保留 相关系数部分即可,整理后粘贴到论文中。

    • 皮尔逊相关系数假设检验条件
      第一, 实验数据通常假设是成对的来自于正态分布的总体;
      第二, 实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大;
      第三:每组样本之间是独立抽样的,构造t统计量时需要用到。

  • 正态分布的检验

  • 雅克‐贝拉检验(Jarque‐Bera test)(大样本 n>30)

    • 偏度和峰度
      在这里插入图片描述
      正态分布的偏度为0,峰度为3
      (在有些地方定义峰度为3,Matlab中定义峰度为0)
      x = normrnd(2,3,100,1);
      % 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
      skewness(x) %偏度
      kurtosis(x) %峰度

    • 雅克‐贝拉检验(Jarque‐Bera test)
      在这里插入图片描述

    • 语法:
      [h,p] = jbtest(x,alpha)

    • 解释:
      1.当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。
      2.alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95
      3.x就是我们要检验的随机变量,注意这里的x只能是向量

  • Shapiro-wilk检验(本3≤n≤50)
    在这里插入图片描述

  • Q-Q图法:(不太常用)

    这里,我们选择正态分布和要检验的随机变量,并对其做出QQ图,可想而知,如果要检验的随机变量是正态分布,那么QQ图就是一条直线。要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大)

    • 语法:
      qqplot(Test(:,1))

斯皮尔曼spearman相关系数

和皮尔逊相关系数相比,斯皮尔曼相关系数对数据的要求比较低

  • 定义

    • 第一种定义方法
      在这里插入图片描述如果有的数值相同,则将它们所在的位置取算术平均。如上表中Y等级的4.5

      带入公式得:
      X和Y的斯皮尔曼相关系数为:0.875

    • 第二种定义方法
      %% MATLAB求解皮尔逊相关系数
      RX = [2 5 3 4 1]
      RY = [1 4.5 3 4.5 2]
      R = corrcoef(RX,RY)

      运行结果得:
      R=
      1.0000 0.8721
      0.8721 1.0000

两种定义方法的结果有微小差别,这是因为Y等级中的4.5,否则两种方法的结果是无差别的。

  • 计算斯皮尔曼相关系数

    Matlab中用的是第二种:
    两种写法:
    (1)corr(X , Y , ‘type’ , ‘Spearman’)
    这里的X和Y必须是列向量
    (2)corr(X , ‘type’ , ‘Spearman’)
    这时计算X矩阵各列之间的斯皮尔曼相关系数

  • 假设检验:

    • 小样本
      直接查临界值表即可。
      样本相关系数r必须大于等于表中的临界值,才能得出显著的结论。
    • 大样本
      若选择95%,则:
      在这里插入图片描述
      disp( ( 1-normcdf(z) ) * 2 ) 即为p值,(这里将 z* 的值带入z),将p值与0.05比较即可得出结论。
    • 大样本中直接给出相关系数和p值
      Matlab实现:
      [R,P]=corr(Test, ‘type’ , ‘Spearman’)

两个相关系数的比较

  • 1.连续数据、正态分布、线性关系,用pearson相关系数效率最高;

  • 2.上述三个条件任一条件不满足时,用spearman相关系数;

  • 3.两个定序数据之间也用spearman相关系数。

    • 定序数据:定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
      例如:优、良、差;
      我们可以用1表示差、2表示良、3表示优,但请注意,用2除以1得出的2并不代表任何含义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序。
    • 注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值