R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap)
尽管二次抽样、重新抽样或者其他的对给定数据重新排序的方法并不能增加数据的信息,但是这些办法往往有助于我们提取信息。今天我们就来详细的讨论一下抽样技术在数据分析中的作用。主要包括随机化检验、Jackknife、bootstrap三个方面的内容。
女士品茶实验与随机化检验
首先我们还是来回顾一下Fisher爵士的女士品茶实验。一种饮品由牛奶与茶混合而成,它的制作工艺可以是先放奶后放茶(这里我们可以称之为奶茶)也可以是先放茶后放奶(这里我们称之为茶奶)。一位女士声称她可以分辨出这个饮品是茶奶还是奶茶。那么我们有办法来检验这位女士所说的话吗? Fisher爵士给出了一个办法:准备8杯饮品,4杯茶奶4杯奶茶,随机排列让该女士一一品鉴,看看该女士的判断是否正确。这个检验合理吗?假设该女士都品尝正确,那么她是随机猜测的概率仅有1/70。由于发生一件1/70的事件还是蛮稀奇的,所以我们有理由相信这个女士是有品鉴能力的。 这里我们关注的重点并非Fisher的显著性检验思想而是随机化安排茶奶与奶茶的想法。这个想法被称为随机性检验。尽管这一想法的根在1935年Fisher的论文中,但广泛的使用却是在Edgington(1995)之后。 我们以一个简单的例子来介绍一下随机化检验的想法。我们考虑两个样本:
我们想要检验这两个样本的均值是否是一样的。我们考虑一个非常粗糙的统计量t=mean(x)-mean(y)。现在我们考虑一个同样观测集构造的不同样本: