自助法和经验似然方法·第一篇，理论入门

martingalefan

已于 2024-05-13 18:18:58 修改

阅读量591

点赞数 8

文章标签：数学建模

于 2024-05-13 18:10:29 首次发布

本文链接：https://blog.csdn.net/weixin_52653639/article/details/138813581

版权

自助法和经验似然方法系列文章

自助法和经验似然方法·第一篇，理论入门

Bootstrap and Empirical Likelihood

作者：周迈教授，个人主页

整理：杨一帆

我们用不太严格但平实的语言从一个侧面讲述自助法(Bootstrap)和经验似然方法(Empirical Likelihood)的异同。

系列看点：

Empirical Likelihood 构造置信区间的方法
介绍关于Empirical Likelihood 的 Wilks 定理

问题设定

给定随机样本 $x_1, x_2, \cdots, x_n$ 我们假定它是从总体 $F_0(\cdot)$ 抽样得来。我们不假定总体 $F_0$ 属于某个参数分布族，所以这是一个非参数模型。另外又有一个我们感兴趣的（有限维）统计量 $T(x_1, x_2, \cdots, x_n)$ 简单记为 $T (X)$ 。我们不妨先假定它是一维的。例如，可以想像 $\frac{1}{n} \sum x_i$ 。

下面我们仔细分析，比较 Bootstrap 和 Empirical Likelihood 如何做基于 $T (X)$ 的置信区间。这里的我们关心的参数是 $\mathbf{E}[T(X)]= T(F_0)$ .

! ⚠ Bootstrap方法的细分比较多而且在统计学习里面被广泛使用，但在深度学习大行其道的今天，其抽样（本）计算的特性（计算复杂较高），加之大部分深度学习任务只关心预测不关心检验的特性，导致其用得远不如Dropout（Hinton 2012）这种方法多。我们这里讨论的生存分析数据是低维的（欧氏空间下），所以不去考虑Dropout估计置信区间的事情，而且这两者不兼容（residual bootstrap情况下）。从（Zhu and Laptev,2017）汇报的情况看[1]，Dropout构建置信区间区间应该也不成问题。但尚无研究在这上面做文章[2]。

Bootstrap

Bootstrap的思路很简单，对样本抽样，然后利用多轮抽样得到的样本，计算统计量。

一个思维试验

请添加图片描述

Chicken or the egg: Illustration from Tacuina sanitatis, 14th century

策略一：如果我们可以得到更多从总体 $F_0$ 抽样得来的样本 $x_{n+1}, \cdots, x_m$ ，那么不难用模拟（比如MC）得到 $T (X)$ 的近似分布，那么只要一遍又一遍的重复此操作，使用新的 x 观察值来计算新的 $T (x)$ ，然后用大数定理就可以得出一个“足够好”的分布估计。但是我们只有 $x_1, \cdots, x_n$ ，没有 $F_0$ 。采用上述策略会陷入一个讨论是否“先有蛋(分布)先有鸡（样本）”的问题。大多数情形下，此路不通或者实现很复杂。

! ⚠ “足够好的”细节定义，可以是DL距离或者其它距离足够小，这里不影响阅读。

另一方面，因为"样本是总体的一个忠实反映"，既然不能从总体抽样，那我们从它的 “忠实反映” 来抽!这相当于从 $\hat F_n$ 中抽样。这里 $\hat F_n$ 是基于 $x_1,\cdots,x_n$ 的经验分布。而众所周知， $\hat F_n$ 是 $F_0$ 的一个很好的估计，于是用 $\hat F_n$ 来估计统计泛函也很正常。

“统计泛函” $T (F)$ 可以简单理解成分布 $F$ 的函数。

形象的说，我们可以考虑先有鸡（数据）再有蛋（分布估计），然后再有更多的鸡（数据），然后观察这些新蛋的性质。即我们有了“策略二”。

策略二：把 $\hat F_n$ 看成固定的分布，从这里面抽大小为n 的随机样本 $y_1,\cdots,y_n$ 即所谓 Bootstrap样本。由于 $\hat F_n$ 和 $F_0$ 很接近，此时可以认为： $ \sqrt n , [ T(y_1, y_2, \cdots, y_n) - T(\hat F_n) ] ~ \sim ~ \sqrt n , [ T(x_1, x_2, \cdots, x_n) -T(F_0)]_.~~~~~~~~~~[1] $

其中 “～” 理解为分布很接近。

! ⚠ 左边的分布中，把 $\hat F_n$ 看成是固定的分布。在那里只有 $y_j$ 是随机的。

如果我们有 $T (X)$ 的方差估计 $V (X)$ ， (例如，当 $\sum x_i$ 时，有 $\sum (x_i - \bar x)^2$ ) 我们应该有

$ \sqrt n , \frac{ T(y_1, y_2, \cdots, y_n) - T(\hat F_n) }{\sqrt {V(Y)}} ~ \sim ~ \sqrt n , \frac{ T(x_1, x_2, \cdots, x_n) -T(F_0)}{ \sqrt {V(X)}}~~~~~~~~~~~[2]$

也有人简单的说

$T(y_1, y_2, \cdots, y_n) ~ \sim ~ T(x_1, x_2, \cdots, x_n)~~~~~~~~~~~[3]$

我们不在这儿深入讨论这些逼近说法的好坏/异同/差别。我们主要看如何产生 $y_1, y_2, \cdots, y_n$ 。

最后，我们需要的是[3]右边的分布，这里需要借助[3]左边的分布，这个是可以模拟出来的。当然，左右两边 “很接近” 即 [1] 或 [2]。这个事实需要证明，也已经被许多人证明了。

用左边的分布来逼近右边的分布的方法就是我们主要要介绍的Bootstrap方法。

有了分布，就可以计算置信区间以及更多的统计泛函。比如，如果 [2] 成立，并且假设我们可以通过模拟得到，对于左边的分布下式成立：

$\left( a< \sqrt n \, \frac{T(y_1, \cdots, y_n) - T(\hat F_n)}{\sqrt{V(Y)}} <b \right) = 0.90$

那么，近似的就有：

$\left( a< \sqrt n \, \frac{T(x_1, \cdots, x_n) - T(F_0)}{\sqrt{V(X)}} <b \right) \approx 0.90$

这就可以导出 $T(F_0)$ 的一个置信区间。

[To be continued…]

参考

^Lingxue Zhu and Nikolay Laptev. “Deep and confident prediction for time series at uber”. In: 2017 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE. 2017, pp. 103–110.
^Wiegrebe S, Kopper P, Sonabend R, Bender A. Deep Learning for Survival Analysis: A Review. arXiv preprint arXiv:2305.14961. 2023 May 24.