【机器学习分支】重要性采样（Importance sampling）学习笔记

小白有颗大白梦

已于 2023-05-05 22:17:41 修改

阅读量6.8k

点赞数 10

分类专栏：机器学习课堂笔记文章标签：机器学习

于 2023-04-28 18:03:37 首次发布

本文链接：https://blog.csdn.net/weixin_62012485/article/details/130430075

版权

机器学习课堂笔记专栏收录该内容

5 篇文章

订阅专栏

重要性采样是一种蒙特卡罗积分方法，用于估计复杂概率分布的期望值。当直接从目标分布采样困难时，它利用一个容易采样的提议分布，并通过加权样本来近似计算。这种方法的关键在于使用重要性权重校正由于错误分布采样引入的偏差，尤其在处理高维问题和非均匀分布时效率较高。文章通过例子解释了如何利用重要性采样来优化采样策略，减少计算资源的浪费。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

重要性采样（importance sampling）是一种用于估计概率密度函数期望值的常用蒙特卡罗积分方法。其基本思想是利用一个已知的概率密度函数来生成样本，从而近似计算另一个概率密度函数的期望值。

（这个基本思想的说法太抽象了≡(▔﹏▔)≡，现在仅仅把重要性采样当做一个在概率大的地方多采样的方法就好，等看完全文的采样步骤再来看这句总结性的话会更好理解。另外，结合下面举的例子应该理解起来会简单一些）

想从复杂概率分布中采样的一个主要原因是能够使用式（11.1）计算期望。重要采样（importance sampling）的方法提供了直接近似期望的框架，但是它本身并没有提供从概率分布 $p (z)$ 中采样的方法，也就是我们无法从式（11.1）直接过渡到(11.2)
$\mathbb{E}[f] = \int f(z)p(z)dz \tag{11.1}$ $\hat{f} = \frac{1}{L}\sum\limits_{l=1}^L f(z^{(l)}) \tag{11.2}$ 公式（11.2）给出的期望的有限和近似依赖于能够从概率分布 $p (z)$ 中采样。然而，假设直接从 $p (z)$ 中采样无法完成，但是对于任意给定的 $z$ 值，我们可以很容易地计算 $p (z)$ 。一种简单的计算期望的方法是将 $z$ 空间离散化为均匀的格点，将被积函数使用求和的方式计算，形式为
$\mathbb{E}[f] \simeq \sum\limits_{l=1}^Lp(z^{(l)})f(z^{(l)})$ 这种方法的一个明显的问题是求和式中的项的数量随着 $z$ 的维度指数增长。此外，正如我们已经注意到的那样，我们感兴趣的概率分布通常将它们的大部分质量限制在 $z$ 空间的一个很小的区域，因此均匀地采样非常低效，因为在高维的问题中，只有非常小的一部分样本会对求和式产生巨大的贡献。我们希望从 $p (z)$ 的值较大的区域中采样，或理想情况下，从 $p (z) f (z)$ 的值较大的区域中采样。

与拒绝采样的情形相同，重要采样基于的是对提议分布 $q (z)$ 的使用，我们很容易从提议分布中采样，如下图所示：

重要采样解决的是计算函数 $f (z)$ 关于分布 $p (z)$ 的期望的问题，其中，从 $p (z)$ 中直接采样比较困难。相反，样本 ${z^{(l)}}$ 从一个简单的概率分布 $q (z)$ 中抽取，求和式中的对应项的权值为 $p(z^{(l)})/q(z^{(l)})$ ，这样就可以还原到从 $p (z)$ 中取样。

上述过程中的式子，我们可以通过 $q (z)$ 中的样本 ${z^{(l)}\}$ 的有限和的形式来表示期望
$\mathbb{E} = \int f(z)p(z)dz \ = \int f(z)\frac{p(z)}{q(z)}q(z)dz \ \simeq \frac{1}{L}\sum\limits_{l=1}^L\frac{p(z^{(l)})}{q(z^{(l)})}f(z^{(l)})$ 其中 $r_l = p(z^{(l)}) / q(z^{(l)})$ 被称为重要性权重（importance weights），修正了由于从错误的概率分布 $q (z)$ 中采样引入的偏差。

对于上述过程，举个栗子：

我们的待计算函数为 $h(x)=e^{-2|x-5|}$ ，待采样分布为 $p(x)=\dfrac{1}{10} ,x \sim\mathcal{u}(0,10)$ ,从 $h (x)$ 的图像中明显可以看出，在中间部分的 $h (x) p (x)$ 对期望贡献较大，而两边几乎可以忽略不计，所以此时使用均匀分布采样并不合理。

基于此，我们引入了新的采样分布函数 $q(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\frac{(x-5)^2}{2}}$

在这里插入图片描述
这使得在 $h (x)$ 较大的位置取值更多，需要的采样点更少。

以上就是重要性采样基本的思想及公式推导。

而更常见的情形是，概率分布 $p$ 的计算结果没有标准化，也就是 $\tilde{p}(z) / Z_p$ 中我们只知道 $\tilde{p}(z)$ ，其中 $\tilde{p}(z)$ 的值可以很容易地由 $z$ 计算出来（可能没有函数表达式），而 $Z_p$ 未知（ $\tilde{p}(z)$ 无法积分算）。类似的，我们可能希望使用重要采样分布 $\tilde{q}(z) / Z_q$ 中的 $\tilde{q}(z)$ ，它具有相同的性质。于是我们得到:
$\mathbb{E}[f] = \int f(z)p(z)dz \ = \frac{Z_q}{Z_p}\int f(z)\frac{\tilde{p}(z)}{\tilde{q}(z)}q(z)dz \ \simeq \frac{Z_q}{Z_p}\frac{1}{L}\sum\limits_{l=1}^L\tilde{r}_lf(z^{(l)})$
其中 $\tilde{r}_l = \tilde{p}(z^{(l)}) / \tilde{q}(z^{(l)})$ 。

对于其中的 $Z_p / Z_q$ ，我们还可以使用同样的样本集合来计算，消掉这个未知的东西，结果为：
$\frac{Z_p}{Z_q} = \frac{1}{Z_q}\int\tilde{p}(z)dz = \int\frac{\tilde{p}(z)}{\tilde{q}(z)}q(z)dz \ \simeq \frac{1}{L}\sum\limits_{l=1}^L\tilde{r}_l$

第一个等式中 $Z_p$ 用 $\int\tilde{p}(z)dz$ 等价计算了出来，第二个等式中 $Z_q$ 用 $\tilde{q}(z) / Z_q$ 替代

因此：
$\mathbb{E}[f] \simeq \sum\limits_{l=1}^Lw_lf(z^{(l)})$ 其中: $w_l = \frac{\tilde{r}_l}{\sum_m\tilde{r}_m} = \frac{\tilde{p}(z^{(l)})/q(z^{(l)})}{\sum_m\tilde{p}(z^{(l)})/q(z^{(l)})}$
这也就是我们最终要找样本点计算的式子
最终，我们达到了“利用一个已知的概率密度函数 $q (z)$ 来生成样本，从而近似计算另一个概率密度函数的期望值 $\mathbb{E}[f] = \int f(z)p(z)dz$ ”这一目的。