统计学习（六）：重抽样方法

最新推荐文章于 2024-01-01 18:47:42 发布

Goodsta

最新推荐文章于 2024-01-01 18:47:42 发布

阅读量1w

点赞数 4

本文链接：https://blog.csdn.net/wong2016/article/details/73913425

版权

重抽样( resampling )主要用于以下三个目的：

(1). 估计样本统计量(如中位数、方差、分位数等)的精度，使用数据的子集( jackknifing )或者样本的有放回抽样( bootstrapping );
(2). 检验时交换数据点的标签;
(3). 使用随机的样本子集，验证模型的有效性。

Bootstrap 方法

基本思想

Bootstrap 是评价统计精度的一种常见方法。它的基本思想是，利用样本的重抽样数据推断总体。由于总体是未知的，因此，样本统计量关于总体值的真实误差也是未知的。在 Bootstrap 重抽样中，总体由样本表示。

设样本 $x_1, x_2, \dots, x_n$ 来自某总体 $F$ , $F$ 未知。对样本进行有放回抽样( samping with replacement ),得到与原始样本同样大小的 bootstrap* 样本，不妨记为

$\qquad x_1^{*(1)}, x_2^{*(1)}, \dots, x_n^{*(1)}$

$\qquad x_1^{*(2)}, x_2^{*(2)}, \dots, x_n^{*(2)}$

$\qquad\qquad\vdots$

$\qquad x_1^{*(B)}, x_2^{*(B)}, \dots, x_n^{*(B)}$

其中， $B$ 为重抽样次数，即 $bootstrap$ 样本容量。

设统计量 $T_n=T_n(x_1,x_2,\dots,x_n)$ , 称
$T_n^{*(j)}=T_n (x_1^{*(j)},x_2^{*(j)},\dots,x_n^{*(j)})\,\,\,(j=1,2,\dots,B)$ 为统计量 $T_n$ 的 bootstrap replicates. 现在利用 $T_1^{*(1)}, T_2^{*(2)}, \dots,T_n^{*(B)}$ 来估计 $T_n$ 的准确性。

模拟

设样本 $y_1,y_2,\dots,y_B$ 来自某分布 $G$ , 由大数定律，知

y ¯ n = 1 B \sum i = 1 B y i - \to p \int y d G (y) = E (Y), 当 B \to \infty 时

$\bar{y}_n =\dfrac{1}{B} \sum\limits_{i=1}^B y_i\xrightarrow{p} \int y\, {\rm d}G(y)=E(Y),\,\mbox{当}\,B\rightarrow\infty\,\mbox{时}$
设函数

h $h$ 具有有限的均值，则

1 B \sum i = 1 B h (y i) - \to p \int h (y) d G (y) = E (h (Y))

$\dfrac{1}{B}\sum\limits_{i=1}^B h(y_i)\xrightarrow{p}\int\,h(y)\,{\rm d}G(y)=E (h(Y))$
特别地，

1 B \sum i = 1 B (y j - y ¯) 2 = 1 B \sum i = 1 B y 2 j - (1 B \sum i = 1 B y j) 2 - \to p \int y 2 d G (y) - (\int y d G (y)) 2 = V a r (Y)

$\dfrac{1}{B}\sum\limits_{i=1}^B (y_j - \bar{y})^2=\dfrac{1}{B}\sum\limits_{i=1}^B y_j^2- (\dfrac{1}{B}\sum\limits_{i=1}^B y_j)^2\xrightarrow{p}\int\,y^2\,{\rm d}G(y)- (\int\,y\,{\rm d}G(y))^2=Var(Y)$
因此，可以用模拟的样本均值(方差)代替总体均值(方差)。

bootstrap 方差估计

设样本分布是 $\hat{F}_n$ , $T_n$ 是一个统计量， $V_{\hat{F_n}} (T_n)$ 是 $T_n$ 关于 $\hat{F}_n$ 的方差。模拟样本 $x_1^*,x_2^*,\dots,x_n^*$ 来自 $\hat{F}_n$ , 然后计算 $T_n^* = T_n(x_1,x_2,\dots,x_n)$ . 从 $\hat{F}_n$ 中抽取一个观测样品，等价于从原始样本中随机地抽取一个样品，即从原始样本 $x_1,x_2,\dots,x_n$ 中有放回地抽取 $n$ 个样品，组成一个 $bootstrap$ 样本，计算 $T_n^*$ 的值。具体步骤如下: