数据X与模型Z的关系
- 从模型到数据就是生成模型,其作用是去预估生成数据的分布
- 从数据到模型是推断模型,其作用是根据数据去得到因变量
基于平均场的变分推断
基于平均场将隐变量z分为若干个独立的团,这样求起来还是需要积分,其思想类似于坐标上升。
基于梯度的变分推断
这里补充一点,对于变分推断来说,基于的公式也是ELBO与KL散度,总体来说就是让
q
(
z
)
q(z)
q(z)去近似估计
p
(
z
∣
x
)
p(z|x)
p(z∣x)这个后验。
我们对ELBO关于
φ
\varphi
φ求导,
φ
\varphi
φ就是q中的参数,经过求导可以发现其实就是函数关于
q
φ
q_{\varphi}
qφ的期望。
对期望进行近似可以采用MCMC方法,但是这里近似出来的值方差可能会很大,主要因为
l
o
g
(
q
φ
)
log(q_{\varphi})
log(qφ)这一项。
重参数化
针对上面的问题,我们需要使用重参数化的方法,将P
φ
\varphi
φ转化为与
φ
\varphi
φ无关的量
(这里补充一点,
θ
a
n
d
φ
\theta and \varphi
θandφ都是分布的参数,模型的参数在z中,但是z不是频率角度的优化问题,即不是通过学习得出的,而是通过积分得出的,也就是
θ
a
n
d
φ
\theta and \varphi
θandφ求出之后z的概率分布就出现了,对齐进行积分即可求得联合分布结果)