数据要求:单峰对称分布,数据在其两边分布的疏密情况是对称的
很过不对称的单峰数据分布可能通过变换化为对称分布。多峰分布通过混合分布整体表示后,每一个分布也可以用单峰对称的分布表示。就对称分布而言,对称中心只有一个,中位数却可能有很多个。
例子:
-0.27 -0.03 -0.56 -0.14 -0.15 30 80 100
对数据来说,0是这组数据的中位数,有相等数量的正号和负号;如果只看秩,而不看数据的取值,直觉上是一个以0为中心样本。但实际上,取负值的数据相对比较密,取正值的数据相对比较稀疏,这不满足对称要求对称中心两边的分布相同的特点。为什么符号的做法失败了?问题出在没有考虑数据绝对值的大小上,
Wilcoxon符号秩统计量的思想是:首先把样本的绝对值|X1|、|X2|、|X3|……|Xn|排序,其顺序统计量为|X|(1)、|X|(2)、|X|(3)……|X|(n)。如果数据关于零点对称,对称中心两侧数据的疏密和取负值的数据交错出现,取正值数据在样本绝对值样本中的秩和与取负值数据在绝对值样本中的秩和应近似相等
符号表示:
Rj : |Xj|在绝对值样本中的秩,即|Xj|=|X|(Rj)
S(x) : 表示示性函数I(x>0),若x>0时为1,否则为0
Dj : 反秩,|XDj|=|X|(j)
Wilcoxon符号秩统计量:
W+ = SUM(jWj) = SUM(RjS(Xj))
例子:
X1 | X2 | X3 | X4 | X5 | X6 |
9 | 13 | -7 | 10 | -18 | 4 |
|X|(3) | |X|(5) | |X|(2) | |X|(4) | |X|(6) | |X|(1) |
R1=3 | R2=5 | R3=2 | R4=4 | R5=6 | R6=1 |
W3=1 | W5=1 | W2=0 | W4=1 | W6=0 | W1=1 |
D3=1 | D5=2 | D2=3 | D4=4 | D6=5 | D1=6 |
W+ = 3+5+4+1 =13
假设样本点X1,X2,……,Xn来自连续对称总体分布
过程:
1)计算|Xi - M0|;样本点到M0的距离,(相间出现)
2)将上面n个绝对值排序,并找到他们的n个秩,如果有相同的样本点,每个点取平均秩
3)令W+等于Xi - M0 > 0的|Xi - M0|的秩的和,而W-等于Xi - M0 < 0的|Xi - M0|的秩的和,注意:W+ + W- = n(n+1)/2
4)双边检验 H0 :M = M0,W+ 与W-近似相等
单边检验 H0 :M <= M0,W+ = W-
单边检验 H0 :M => M0,W+ = W-
R语言程序
(之后补)