四:秩和检验
秩和检验(rank sum test)又称顺序和检验,它是一种非参数检验(nonparametric test)。它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象为何种分布以及分布是否以知,因而实用性较强。
摘自 百度百科
1.参数检验与非参数检验
开始之前,需要了解一下参数检验与非参数检验。
所谓的参数检验,就是以特定的分布(如正态分布)为前提,对总体参数进行假设检验,如
t
t
t检验,
z
z
z检验等。
非参数检验,不依赖总体分布进行的检验,包括了秩和检验与卡方检验。
秩,即顺序。秩和,即排名之和。秩和检验便是通过排名之和来检验两组之间总体分布,本篇以两样本成组为例。
2.秩和检验原理
一般来说,两独立样本通常使用 t t t检验,但 t t t检验需满足正态分布。在不满足情况下,应选择非参数检验。
举个例子,为了比较x,y两个样本,一种方法( t t t检验)可以计算两组平均数进行检验;第二种方法(秩和检验)就是将两组混合排序,再通过排序之和除以人数,得到平均排名再进行比较。
3.数据准备
以rivers数据集为例。
> rivers
[1] 735 320 325 392 524 450 1459 135 465 600 330 336 280 315 870
[16] 906 202 329 290 1000 600 505 1450 840 1243 890 350 407 286 280
[31] 525 720 390 250 327 230 265 850 210 630 260 230 360 730 600
[46] 306 390 420 291 710 340 217 281 352 259 250 470 680 570 350
[61] 300 560 900 625 332 2348 1171 3710 2315 2533 780 280 410 460 260
[76] 255 431 350 760 618 338 981 1306 500 696 605 250 411 1054 735
[91] 233 435 490 310 460 383 375 1270 545 445 1885 380 300 380 377
[106] 425 276 210 800 420 350 360 538 1100 1205 314 237 610 360 540
[121] 1038 424 310 300 444 301 268 620 215 652 900 525 246 360 529
[136] 500 720 270 430 671 1770
数据是美国河流长度,这里为方便演示,将数据分为前后两部分:rivers[1:70]、rivers[71:140]
对数据使用shapiro.test()
进行正态性检验,结果不服从正态分布,故选用非参数检验。
4.wilcox秩和检验
4.1 提出假设
H0:两组河流长度总体分布相同。
H1:两组河流长度总体分布不相同。
4.2 检验
使用wilcox.test()
对两个样本进行检验。
> wilcox.test(rivers[1:70],rivers[71:140],paired = TRUE)
Wilcoxon signed rank test with continuity correction
data: rivers[1:70] and rivers[71:140]
V = 1299, p-value = 0.7431
alternative hypothesis: true location shift is not equal to 0
参数paired
根据样本的独立性选择,此例两样本并非独立,故参数使用TRUE
。
默认情况下,执行双侧检验(alternative = 'two.sided'
),使用less
或greater
执行单侧wilcox检验。
参考R-Wilcox秩和检验
4.3 结论
通过p值可知,此时p值等于0.7431,大于0.05,不能拒绝H0,两样本总体分布相同。