步骤
-
第一步:提出原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1
这里要注意两个假设是相反的
假设我们计算出了一个皮尔逊相关系数r,我们想检验它是否显著的异于0,那么我们可以这样设定原假设和备择假设: H 0 : r = 0 , H 1 : r ≠ 0 H_0:r=0,H_1 :r\neq 0 H0:r=0,H1:r=0 -
第二步:在原假设成立的条件下,利用我们要检验的量构造处一个符合某一分布的统计量
注1:统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量
注2:这里的分布一般有四种:标准正态分布,t分布、 x 2 x^2 x2分布,F分布
对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构造统计量:
t = r n − 2 1 − r 2 t=r\sqrt{\frac{n-2}{1-r^2}} t=r1−r2n−2,可以证明t是服从自由度为n-2的t分布。
注意这里的n为样本量,是一个常量 -
第三步:将我们要检验的这个值带入这个统计量中,可以得到一个特定的值(检验值)
例如,我们算出相关系数为0.5, n = 30 n=30 n=30,那么我们可以得到
t ∗ = 0.5 30 − 2 1 − 0. 5 2 = 3.05505 t*=0.5\sqrt{\frac{30-2}{1-0.5^2}}=3.05505 t∗=0.51−0.5230−2=3.05505
4.第四步:画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平查表找到找到临界值,并画出检验统计的接受域和拒绝域。
- t分布的概率密度函数图形如下:
Matlab中的程序:
x=-4:0.1:4
y=tpdf(x,28);
plot(x,y,'-')
grid on % 在画出的图上加上网格线
- 给定置信水平
常见的置信水平有三个:90%,95%和99%,其中95%是三者中最为常用的。
因为这里是双侧检验因此我们要找出能覆盖0.95概率的部分
通过查找t分布表,我们可以知道对应的临界值为2.048,因此我么可以做出接受域和拒绝域
5.判断计算出来的检验值是落在拒绝域内还是接受域内。
得到
t
∗
=
3.05505
>
2.048
t*=3.05505>2.048
t∗=3.05505>2.048则我们可以下结论:
在95%的置信水平上,我们拒绝原假设
H
0
:
r
=
0
,
H_0:r=0,
H0:r=0,因此r是显著的不为0的。
更简单的一种方法:p值判断法。
disp('该检验值对应的p值为:')
disp((1-tcdf(3.055,28))*2)% 双侧检验的p值要乘以2
这里tcdf为累计概率密度函数
0.5 * 表示在置信水平90%下显著
0.5 ** 表示在置信水平95%下显著
0.5***表示在置信水平99%下显著
计算各列之间的相关系数以及p值
一行代码:
[R,P]=corroed(Test)
R返回的是相关系数表,P返回的是对应的每个相关系数的P值。
%%计算各列之间的相关系数以及p值
[R,P]=corroed(Test)
P<0.01
(P<0.05).*(P>0.01)
(P<0.1).*(P>0.05)
(这里用SPSS来标记显著性更加方便)
注意不同软件标的*的方式不同,在最后的表中一定要注明标注的方式
皮尔逊相关系数假设检验的条件
- 实验数据通常假设是成对的来自于正态分布的总体
- 实验数据之间的差距不能太大。皮尔逊相关系数受异常值的影响比较大。
- 构造样本之间是独立抽样的。构造t统计量的时候需要用到