R语言与抽样技术学习笔记(Randomize,Jackknife,bootstrap)
Jackknife算法
Jackknife的想法在我很早的一篇博客《R语言与点估计学习笔记(刀切法与最小二乘估计)》就提到过。其思想以一言蔽之就是:将样本视为总体,在“总体”中不放回地抽取一些“样本”来做统计分析。今天我们来讨论Jackknife应该怎么做以及为什么要这么做。
Jackknife的算法描述
Jackknife方法利用系统的划分数据集的办法来推测总体样本估计量的一些性质。Quenouille建议用它来估计偏差,随后John Tukey证实它用来估计估计量的方差也是极好的。
假设我们有随机样本\( X_{1},\cdots,X_{n} \),并从中计算统计量T去估计总体的参数\( \mu \)。在Jackknife方法下,我们将给定数据集划分为r组,每组数据量为k。
现在,我们移除样本中第\( j^{th} \)组数据,并用剩下的数据来估计参数\( \mu \),并将估计量记为\( T_{(-j)} \)。\( T_{(-j)} \)的均值\( \overline{T}_{(\cdot)} \)可以用来估计参数\( \mu \),\( T_{(-j)} \)也可以用来获取估计量T更多的信息,但是必须要指出的是Jackknife不会提供比总体样本更多的信息(任何抽样技术都是不会的!!!);当T是无偏估计时,\( T_{(-j)} \)也是,T是有偏的估计量时,\( T_{(-j)} \)也是