如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
花书+吴恩达深度学习(二三)结构化概率模型(贝叶斯网络、马尔可夫网络)
花书+吴恩达深度学习(二四)蒙特卡罗方法(重要采样,MCMC)
花书+吴恩达深度学习(二五)直面配分函数(CD, SML, SM, RM, NCE)
花书+吴恩达深度学习(二六)近似推断(EM, 变分推断)
0. 前言
通常我们有一系列可见变量 v v v和一系列潜变量 h h h。
推断困难通常是指难以计算 p ( h ∣ v ) p(h\mid v) p(h∣v)或其期望。
1. 将推断视为优化问题
假设一个包含可见变量 v v v和潜变量 h h h的概率模型,我们希望观察 log p ( v ; θ ) \log p(v;\theta) logp(v;θ),作为替代,我们可以计算一个 log p ( v ; θ ) \log p(v;\theta) logp(v;θ)的下界 L ( v , θ , q ) L(v,\theta,q) L(v,θ,q),称为证据下界(evidence lower bound, ELBO):
L ( v , θ , q ) = log p ( v ; θ ) − D K L ( q ( h ∣ v ) ∣ ∣ p ( h ∣ v ; θ ) ) L(v,\theta,q)=\log p(v;\theta)-D_{KL}(q(h\mid v)\mid \mid p(h\mid v;\theta)) L(v,θ,q)=logp(v;θ)−DKL(q(h∣v)∣∣p(h∣v;θ))
证据下界的标准定义为:
L ( v , θ , q ) = E h ∼ q [ log p ( h , v ) ] + H ( q ) L(v,\theta,q)=\mathbb{E}_{h\sim q}[\log p(h,v)]+H(q) L(v,θ,q)=Eh∼q[logp(h,v)]+H(q)
越好的近似 p ( h ∣ v ) p(h\mid v) p(h∣v)的分布 q ( h ∣ v ) q(h\mid v) q(h∣v),得到的下界就越紧,与 log p ( v ) \log p(v) logp(v)更接近。当