变分推断(Variational Inference,简称VI)是贝叶斯统计中的一个近似推断方法。它用于在给定观测数据的情况下,对模型中的潜在变量或参数进行估计。变分推断的核心思想是将复杂的后验分布问题转化为一个优化问题,通过寻找一个简单的分布(称为变分分布)来近似真实的后验分布。
在贝叶斯推断中,我们通常想要计算后验概率分布 p(z|x),即在观测到数据 x 的情况下,潜在变量 z 的概率分布。然而,对于许多复杂的模型,这个后验分布往往难以直接计算,因为它涉及到高维积分,这在计算上是非常昂贵的。
变分推断通过以下步骤解决这个问题:
-
选择变分分布:选择一个参数化的分布族(例如高斯分布)作为变分分布 q(z; θ),这个分布由一组可学习的参数 θ 控制。【q(z; θ) 分号表示左边z是变量,θ是参数;如果是逗号,例如模型p(z, x)表示变量z和x的联合概率分布】
-
定义目标函数:定义一个目标函数,通常是变分分布与真实后验分布之间的Kullback-Leibler (KL) 散度。KL散度衡量了两个概率分布之间的差异。在变分推断中,我们希望找到参数 θ,使得变分分布 q 尽可能接近真实的后验分布 p。
-
优化参数:通过优化目标函数来调整变分分布的参数 θ,使得 q(z; θ) 与 p(z|x) 的差异最小化。这个过程通常涉及到梯度下降或其他优化算法。
-
推断和预测:一旦找到了最优的变分分布,就可以用它来进行推断和预测。例如,可以计算潜在变量的期望值,或者使用变分分布来预测新的观测数据。
变分推断的优点包括:
- 可扩展性:VI 适用于大规模数据集和复杂模型,因为它不需要对整个数据集进行迭代处理。
- 收敛性:VI 通常具有更好的收敛保证,相比于马尔可夫链蒙特卡洛(MCMC)方法,它通常能更快地收敛到稳定的解。
- 计算效率:VI 通常比MCMC方法更高效,因为它不需要进行大量的随机抽样。
然而,变分推断也有一些局限性,例如它可能无法捕捉到后验分布的所有复杂性,特别是在潜在空间非常复杂的情况下。此外,选择和优化变分分布可能需要专业知识,并且对于不同的问题可能需要不同的变分分布族。