自助法和经验似然方法·第二篇：Bootstrap样本的构造方法

最新推荐文章于 2024-09-27 19:48:00 发布

martingalefan

最新推荐文章于 2024-09-27 19:48:00 发布

阅读量711

点赞数 29

文章标签：数学建模

本文链接：https://blog.csdn.net/weixin_52653639/article/details/138837955

版权

自助法和经验似然方法·第二篇：Bootstrap样本的构造方法

Bootstrap and Empirical Likelihood

作者：周迈教授，个人主页
翻译/共同创作：Martingalefan

Bootstrap 抽样的三种等价的视角

茴字的四种写法

视角一: 分布视角

使用分布函数 $\hat F_n$ 来得到 Bootstrap 样本 $y_1, \cdots, y_n$ 。

实例1.1：对于经验分布 $\hat F_n$ 而言，是一个典型的阶梯函数，如图中ECDF(其中TCDF是真实分布)。

请添加图片描述

经验分布 vs 真实分布

实例1.2：假设 $F ()$ 来自于一个与参数 $\theta$ 相关分布族， $\hat F_n = F_{\hat \theta_n}$ ，比如说正态分布的 $\theta = (\mu, \sigma^2)$ 。这样也能进行Bootstrap。这种方法显然就不是非参数的了，叫参数自助法(parametric bootstrap)。

视角二：均匀的有放回抽样

针对实例1.1，其实有一种简单的操作手法：

对于 $x_1, x_2, \cdots, x_n$ 做有放回的抽样。

从而得到 Bootstrap 样本。这有赖于这样的一个事实：在不考虑节(tie)的时候，经验分布 $\hat F_n$ 是一个均匀分布，每一个值被抽中的概率都是 1/n，所以有放回采样的CDF和ECDF相等（在考虑节(tie)的时候，也能得到分布相等的结论）。

这对计算来说，无疑是相当大的简化。

视角三：多项分布视角

产生一个服从多项分布 $\cdots 1/n))$ 的随机向量 $(w_1, w_2, \cdots, w_n)$ ，这里需要注意：

$P(w_j =k)= {n \choose k} (1/n)^k (1- 1/n)^{n-k}$

$\cdots, n$ 。并且 $\sum w_j = n$ 。

此时将 $x_1, x_2, \cdots, x_n$ 用 W 加权就得到Bootstrap样本 $y_1, y_2， \cdots, y_n$ 。

如果 $\forall i: w_i=1$ 就得到原来的样本；
如果 $w_j=2$ ，就表示， $y_1, y_2， \cdots, y_n$ 中包含了两个 $x_j$ ；
以此类推。

论证比较简单，将Bootstrap样本抽样分成两步走：

先确定每个样本抽多少次（含0次）
输出样本

很容易看出视角二和视角三是等价的。

贝叶斯 Bootstrap

这里我们讨论贝叶斯方法上的自然衍生：Bayesian Bootstrap[1]。

采用上面第三种观点很像。只不过加一些先验信息，比如说将 W 服从多项分布改为 $W / n$ 服从 Dirichlet 分布，参数为 $\alpha = (1, 1, \cdots, 1)$ 。此时改完之后 W 的均值，方差，协方差和多项分布都很像。只不过：

多项分布是离散的，可以取零值 v.s. Dirichlet 分布是连续的。
多项分布的W 有 $\sum w_i = n$ v.s. Dirichlet 分布的 W 有 $\sum w_i =1$ 。

Bayesian Bootstrap 把这个 Dirichlet 分布看作是后验分布。

! ⚠ 注释：这样就满足了我们期望中的得到的后验分布和原来的假设分布“很像”这个目的（“quite similar inferentially”）。显然这差不多就是“共轭先验”的思路，而Dirichlet分布是正好是多项分布的共轭先验。

从某种意义上讲， $Dirichlet(\alpha=(1, 1, \cdots, 1))$ 就是多项分布 M( ) 的连续形式。只不过要注意正则归一化, 即注意多项分布的 W 有 $\sum w_i = n$ 但 Dirichlet 分布的 W 有 $\sum w_i =1$ 。以后我们假定 $\sum w_i =1$ 。

! ⚠ 注释：对于Dirichlet, ${\mathbb E}[w_j] = 1/n$ 。对于多项分布 ${\mathbb E} [w_j] = 1$ 。这里就引出了我们说的注意正则归一化。

在Flow/DAG based的研究中，我们经常会遇到这样的问题：我们有一个DAG，每个节点都是一个随机变量，我们希望得到这个DAG的联合分布。这个问题可以用贝叶斯Bootstrap来解决。具体的，我们可以假设每个节点的分布都是Dirichlet分布，然后通过贝叶斯Bootstrap来得到这个DAG的联合分布[2][3]。当然，形式上比我们讲述的更复杂罢了。

参考

^Rubin, Donald B. “The bayesian bootstrap.” The annals of statistics (1981): 130-134.
^Lorch, Lars, et al. “Dibs: Differentiable bayesian structure learning.” Advances in Neural Information Processing Systems 34 (2021): 24111-24123.
^Deleu, Tristan, et al. “Bayesian structure learning with generative flow networks.” Uncertainty in Artificial Intelligence. PMLR, 2022.