漫谈MCMC与Gibbs采样（四）—— Monte Carlo Markov Chain

最新推荐文章于 2024-07-17 21:23:56 发布

tianshi_wang

最新推荐文章于 2024-07-17 21:23:56 发布

阅读量8.5k

点赞数 2

分类专栏：机器学习文章标签： MCMC Gibbs采样机器学习统计学蒙特卡洛

本文链接：https://blog.csdn.net/weixin_43661031/article/details/95003002

版权

Monte Carlo Markov Chain

上一篇里，我们从随机变量的状态转移和随机变量的分布转移这两个角度，来解释了马尔可夫链的转移过程，以及收敛这一重要的性质。这个性质与我们本文的主题采样有什么关系呢？下面我们从第三个角度来考察马尔可夫链 —— 样本的转移。

分布的转移是数学中抽象的过程，我们无法观测到分布函数或者密度函数，我们可以观测到的是样本。我们已经知道关于随机变量 $X$ 的任意分布 $\pi_0(x)$ 按照 $f(X_{t+1}|X_t)$ 进行转移，最终会收敛到分布 $\pi(x)$ 。那么相应地，一组服从 $\pi_0(x)$ 的样本，按照 $f(X_{t+1}|X_t)$ 进行转移，最终会变成一组服从分布 $\pi(x)$ 的样本。每一次转移的过程可以描述如下：

在初始时刻，我们有一组样本 $\left\{ x_0^1, x_0^2, \cdots, x_0^N\right\}$ ，服从任意分布，将这个分布记为 $\pi_0(x)$
样本中的每一个观测值 $x_0^i$ ，对应一个条件分布 $f(x|x_0^i)$ 。我们从分布 $f(x|x_0^i)$ 中采样一次，将观测值记为 $x_1^i$
于是我们得到一组新的样本 $\left\{x_1^0, x_1^1, \cdots, x_1^N \right\}$ ，这组样本服从 $\pi_1(x)$

重复上述过程直至收敛，那么之后获得的每一组样本都服从分布 $\pi(x)$ 。

那么我们会自然地想到，如果对于我们想要采样的目标分布 $\pi(x)$ ，我们能够找到与之对应的 $f(X_{t+1}|X_t)$ ，并且设计一个从 $f(X_{t+1}|X_t)$ 中采样的方法，那么我们不就解决了从 $\pi(x)$ 中采样的问题吗？

然而，上面的提到的两点，我们都很难解决。我们先来考虑 $X$ 是离散的情况，求解与 $\pi(x)$ 对应的一组条件概率，等同于解一个方程组。假设 $X$ 是十维的随机变量，每个维度上有十个可能的取值，那么 $X$ 总共可能的取值有 $10^{10}$ 个，意味着我们需要 $10^{10}$ 个条件分布。同时，每个条件分布的在 $10^{10}$ 个点上有定义，于是我们的方程组中有 $10^{20}$ 个未知数，而这些未知数还要服从约束，即每个条件分布中各个点的概率非负并且求和等于1。上面还是极其简化的情况，在实际应用中，我们需要采样的分布经常是几十维或者上百维，并且分布是连续的，这样的问题规模是无法求解的，从中采样更无从谈起。

但是这个困难还是被伟大的前人解决了。Metropolis在1953年提出了一个绝妙的解决方案，可以基于一组我们能够采样的分布，巧妙地构造出了我们需要的转移概率。接下来，就让我们来看看，这个巧妙的方法是如何构思的。为了方便大家思考，我们假定我们的目标分布 $\pi(x)$ 是一维的离散分布，在 $x_1, x_2, \cdots, x_N$ 处有取值，记 $\pi(x)=(\pi_1, \pi_2, \cdots, \pi_N)$