摘 要:本文通过一组相似度很高的数据,用常用的两样本非参数比较的方法(符号秩检验,符号秩和检验,游程检验,Mann-White-Wilcoxon检验,K-S检验),来分析各个方法的不足之处。得出K-S检验更适用于数据存在重合的情况。
关键词:K-S检验;Wilcoxon检验;游程检验法
一、引 言
在实际生产生活中,常会遇到这样的问题:如两厂家生产的同类产品,其质量的差异如何?检验员在分析同一物体的成分含量的时候,其分析结果有无显著性差异?这些问题均可以认为是对两组数据总体是否一致,即 是否成立。对于解决这一类问题的方法,常用①符号检验法;②符号秩和检验法;③游程检验法;④Kolmogorov-Smirnov检验方法;⑤Wilcoxon秩和检验法。本文通过生成两组重合度较高的数据,来判断五种方法的优劣性。
数据X: ,即X满足均值为3,方差为3的正态分布;
数据Y: ,即Y满足最小值为2.9,最大值为3.1的均匀分布。
为了更加贴合实际,认为的加入白噪声 对两组数据进行随机扰动,每组数据各生成1000个,散点图如图1。可见二者高度重合且X的波动更大。
二、五种方法的基本原理
2.1 符号检验法的核心思想
设样本 分别取自总体 ,对于任意的x则其样本的观测值应该基本一致,即
剩余的基本理论概念请参考李裕奇,赵联文.非参数统计方法.成都:西南交通大学出版社,2010这里没有必要把课本上的公式重新抄一遍。
利用R语言的程序包,输入如下命令,其余参数取默认值。
>binom.test(sum(data1>data4),N,conf.level = 0.95)
其中binom.test 的解释如下:
Performs an exact test of a simple null hypothesis about the probability of success in a Bernoulli experiment.
得到结果如下:
Exact binomial test
dat