26 sigmoid Belief Network

最新推荐文章于 2024-09-08 23:53:15 发布

hanhan不是很憨憨

最新推荐文章于 2024-09-08 23:53:15 发布

阅读量244

点赞数

分类专栏：机器学习-白板推导文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_50737833/article/details/131739700

版权

机器学习-白板推导专栏收录该内容

29 篇文章 0 订阅

订阅专栏

文章目录

26 Sigmoid Belief Network

26 Sigmoid Belief Network

26.1 背景介绍

什么是Sigmoid Belief Network？Belief Network等同于Bayesian Network，表示有向图模型。sigmoid指sigmoid函数，具体表示为 $\sigma(x) = \frac{1}{1 + exp{\lbrace -x \rbrace}}$ 。

具体举一个Sigmoid Belief Network的例子：

在这里插入图片描述

一个Sigmoid Belief Network如上图所示，由一个数据层与多个隐藏层组成，每层之间都没有直接的连接关系。

我们可以通过sigmoid函数从根节点将每个节点的概率分布进行求解，例如我们求解 $S_i$ 节点的概率分布，因为我们一般将节点的值设置为0/1变量，所以可以写作：
$\begin{cases} P(S_i = 1| S_j: j<i) = \sigma( \sum_{j<i} w_{ji} S_j ) \\ P(S_i = 0| S_j: j<i) = 1 - P(S_i = 1) = \sigma( - \sum_{j<i} w_{ji} S_j ) \end{cases}$
我们也可以将其表达为一个整式：
$\begin{cases} P(S_i| S_j: j<i) = \sigma( S_i^* \sum_{j<i} w_{ji} S_j ) \\ S_i^* = 2 S_i - 1 \end{cases}$
即使我们这样可以获得样本，但是我们发现其实后验还是求不出来的，以为隐藏层之间并非相互独立，关系非常的麻烦。

26.2 通过log-likelihood推断SBN的后验

首先根据上文我们可以得到两个条件：
$\begin{cases} P(S_i| S_j: j<i) = \sigma( S_i^* \sum_{j<i} w_{ji} S_j ) \\ P(S) = \prod_{i=1}^{|S|} P(S_i| S_j: j<i) = P(V, H) \end{cases}$
这两个条件分别表示我们的条件概率与联合概率，通过这两个公式我们就可以对log-likelihood进行如下变换：
$\begin{align} log-likelihood &= \frac{1}{N} \sum_{v \in V} \log P(v) \\ \nabla_{w_{ji}} \log P(v) &= \frac{1}{P(v)} \nabla_{w_{ji}} P(v) \\ &= \frac{P(H|v)}{P(H, v)} \nabla_{w_{ji}} \sum_{H} P(v, H) \\ &= \sum_{H} \frac{P(H|v)}{P(H, v)} \nabla_{w_{ji}} P(v, H) \\ &= \sum_{S} P(S|v) \frac{1}{P(S)} \nabla_{w_{ji}} P(S) \\ &= \sum_{S} P(S|v) \frac{\nabla_{w_{ji}} \prod_{k=1}^{|S|} P(S_k| S_j: j<k)}{\prod_{k=1}^{|S|} P(S_k| S_j: j<k)} \\ \end{align}$
答疑：

对于上面为什么 $P (H, v) = P (S)$ ：因为v在这里表示的是一个随机变量，所以 $P (H, v)$ 也可以写成 $P (H, V = v)$
上文中为什么 $\sum_{H} P(H|v) \iff \sum_{S} P(S|v)$ ，因为这里 $S$ 表示联合概率分布实际上 $P (S ∣ v)$ 应该表达为 $P (H, v ∣ v)$ ，但是 $\iff P(H|v)$ ，所以没问题

因为上文中 $P (S)$ 中实际只有一项与 $w_{ji}$ 相关，所以可以的得到：
$\begin{align} \nabla_{w_{ji}} \log P(v) &= \sum_{S} P(S|v) \frac{\nabla_{w_{ji}} P(S_i| S_j: j<i)}{P(S_i| S_j: j<i)} \\ &= \sum_{S} P(S|v) \frac{\nabla_{w_{ji}} \sigma( S_i^* \sum_{j<i} w_{ji} S_j )}{\sigma( S_i^* \sum_{j<i} w_{ji} S_j )} \\ &= \sum_{S} P(S|v) \frac{\sigma( S_i^* \sum_{j<i} w_{ji} S_j ) \cdot \sigma( - S_i^* \sum_{j<i} w_{ji} S_j ) \cdot S_i^* \cdot S_j}{\sigma( S_i^* \sum_{j<i} w_{ji} S_j )} \\\\ &= \sum_{S} P(S|v) \sigma( - S_i^* \sum_{j<i} w_{ji} S_j ) \cdot S_i^* \cdot S_j \\ \end{align}$
所以我们可以得到：
$\nabla_{w_{ji}} log-likelihood = \frac{1}{N} \sum_{v \in V} \sum_{S} \left[ P(S|v) \sigma( - S_i^* \sum_{j<i} w_{ji} S_j ) \cdot S_i^* \cdot S_j \right]$
但是这个东西我们求不出来，为什么呢？因为这里面有 $P (S ∣ v)$ ，也就是后验。由于SBN图的性质，隐节点之间并不相互独立，所以没法求解。我们其实也可以通过MCMC进行求解，我们可以把公式转换为（常数项都删掉）：
$\nabla_{w_{ji}} log-likelihood = E_{H \backsim P(S|v), v \backsim P_{data}} \left[ \sigma( - S_i^* \sum_{j<i} w_{ji} S_j ) \cdot S_i^* \cdot S_j \right]$
但是由于后验过于复杂，所以MCMC只能完成节点较少的SBN。

26.3 醒眠算法——Wake Sleep Algorithm

醒眠算法实际上是求解SBN的一个启发式算法，什么是启发式算法呢？就是不求精确，但求能求解出来。

为了实现该算法，我们首先要对我们的图增加一些条件，做出一些假设如下图：

在这里插入图片描述

我们将所有节点之间的连接 $w_{ji}$ 做出其反向连接，并取名为 $R_{ji}$ 。

醒眠算法正如其名，分为两个步骤：

wake：从下往上（图中蓝色部分），通过已知条件（训练数据）对 $H$ 进行采样，假定反向图的参数为 $\phi$ （已知），我们可以通过分布 $q_\phi (H|v)$ 求得sleep需要用的参数 $\theta$
sleep：从上往下（图中黑色部分），根据wake步得到的样本数据对 $v$ 采样，通过分布 $P_\theta (v, H)$ 求取下一个wake步需要用的参数 $\phi$ ，此时 $\theta$ 已知（上一个wake步求到的）。

我们具体的目标函数表示为：

wake：通过分布 $q_\phi (H|v)$ 求 $\theta$ ：
$\begin{align} \theta^{(i)} &= arg\max_\theta E_{q_{\phi^{(i)}} (H|v)} \left[ \log P_\theta(H, v) \right] \\ &= arg\max_\theta \underbrace{{\mathcal L} (\theta)}_{ELBO + KL} - H[q] \\ &= arg\min_\theta KL(q_{\phi^{(i)}} (H|v) \Vert P_\theta(H, v)) \\ \end{align}$
sleep:通过分布 $P_\theta (v, H)$ 求 $\phi$ ：
$\begin{align} \phi^{(i + 1)} &= arg\max_\phi E_{P_{\theta^{(i)}}(H, v)} \left[ \log q_{\phi} (H|v) \right] \\ &= arg\max_\phi \int {P_{\theta^{(i)}}(H, v)} \log q_{\phi} (H|v) {\rm d}H \\ &= arg\max_\phi \int P_{\theta^{(i)}}(v) \cdot P_{\theta^{(i)}}(H| v) \cdot \log \left( \frac{q_{\phi} (H|v)}{P_{\theta^{(i)}}(H| v)} P_{\theta^{(i)}}(H| v) \right) {\rm d}H \\ &= arg\max_\phi \int P_{\theta^{(i)}}(H| v) \cdot \log \frac{q_{\phi} (H|v)}{P_{\theta^{(i)}}(H| v)} {\rm d}H \\ &= arg\min_\phi KL(P_{\theta^{(i)}}(H, v) \Vert q_\phi (H|v)) \\ \end{align}$

我们发现上面的步骤和EM算法很想，但又不一样。wake形如EM算法的M-Step，sleep形如E-Step，但sleep时的目标函数是 $\Vert q)$ ，和wake的 $\Vert p)$ 不同，所以没法保证算法收敛。这也是为什么只能作为一个启发式算法的原因。

hanhan不是很憨憨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
26 sigmoid Belief Network

什么是Sigmoid Belief Network？Belief Network等同于Bayesian Network，表示有向图模型。sigmoid指sigmoid函数，具体表示为σx11exp−xσx1exp−x1。具体举一个Sigmoid Belief Network的例子：一个Sigmoid Belief Network如上图所示，由一个数据层与多个隐藏层组成，每层之间都没有直接的连接关系。
复制链接

扫一扫

专栏目录