机器学习算法笔记：RBM受限玻尔兹曼机_受限玻尔兹曼机的隐变量哪来-CSDN博客

本文链接：https://blog.csdn.net/weixin_43711554/article/details/105711859

文章目录

玻尔兹曼机

玻尔兹曼机是一种存在隐节点的无向图模型。在图模型中最简单的是朴素贝叶斯模型（朴素贝叶斯假设），引入单个隐变量后，发展出了 GMM，如果单个隐变量变成序列的隐变量，就得到了状态空间模型（引入齐次马尔可夫假设和观测独立假设就有HMM，Kalman Filter，Particle Filter），为了引入观测变量之间的关联，引入了一种最大熵模型-MEMM，为了克服 MEMM 中的局域问题，又引入了 CRF，CRF 是一个无向图，其中，破坏了齐次马尔可夫假设，如果隐变量是一个链式结构，那么又叫线性链 CRF。
$\begin{aligned}\left. \begin{aligned} \text{SVM}\\[8pt] \text{PLA}\\[8pt] \text{LDA} \end{aligned} \right\}\mathop{ \Longleftarrow}\limits^{\text{\; 硬 \; }} \boxed{\text{分类}}\mathop{\Longrightarrow}\limits^{\;\text{ 软 }\;} \left\{ \begin{aligned} &\left. \begin{aligned} & \underbrace{\text{Logistic Regression}}_{\text{概率判别模型：$p(y|x)$}} \Longrightarrow \underbrace{\text{Maximum Entropy Model}}_{\text{给定均值和方差，高斯分布熵最大}}\\ \\ &\underbrace{\text{Naive Bayes}}_{\text{概率生成模型：$p(x,y)$}}\mathop{\Longrightarrow}\limits^{y\in\{0,1\}\to seq} \overbrace{\text{Hidden Markov Model}}^{\text{1)齐次Markov；2)观测独立}} \end{aligned}\right\}\mathop{\Longrightarrow}\limits^{打破观测独立 }\underbrace{\overbrace{\text{MEMM}}^{\text{问题：Label bias}}}_{\text{判别模型}} \mathop{\Longrightarrow}\limits^{有向\to 无向} \text{CRF} \\ &\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\Uparrow+\mathcal {time}\\ &\qquad\qquad\qquad\qquad\qquad\quad\underbrace{\text{Gaussian Mixture Model}}_{\text{隐变量：离散；观测变量：x|y 高斯分布}} \end{aligned}\right. \end{aligned}$
在无向图的基础上引入隐变量，即：把无向图的节点分为观测变量和隐变量两类，就是玻尔兹曼机，其实也就是含隐变量的马尔科夫随机场。这个图模型的概率密度函数是一个指数族分布。对隐变量和观测变量作出一定的限制，就得到了受限玻尔兹曼机（RBM）。

不同的概率图模型对下面几个特点作出假设：

方向-边的性质
离散/连续/混合-点的性质
条件独立性-边的性质
隐变量-节点的性质
指数族-结构特点

将观测变量和隐变量记为 $h={(h_1,\cdots,h_m)^T}$ ， $v={(v_1,\cdots,v_n)^T}$ ，其中 $p = m + n$ ，无向图根据最大团的分解，可以写为玻尔兹曼分布的形式（也是一个指数族分布）：
$p(x)=\frac{1}{Z}\prod\limits_{i=1}^K\psi_i(x_{ci})=\frac{1}{Z}\exp(-\sum\limits_{i=1}^KE(x_{ci}))$

$K$ 为最大团个数， $c_i$ 为最大团的节点集合， $x_{ci}$ 为最大团对应的随机变量集合， $\psi_i(x_{ci})=\exp\{-E(x_{c_i})\}$ 为势函数（严格大于 0，所以一般取指数函数， $E$ 表示能量函数）， $Z=\sum\limits_X\prod\limits_{i=1}^K\psi_i(x_{ci})=\sum\limits_{X_1}\cdots\sum\limits_{X_p}\prod\limits_{i=1}^K\psi_i(x_{ci})$ 为归一化因子(partition function也叫配分函数，这里假设有 $p$ 个随机变量)。

受限玻尔兹曼机

玻尔兹曼机节点间关系过于复杂，计算难度和计算量都较高（即使是近似推断难度也很大），因此需要对其做一定程度的简化：

假设所有隐变量内部以及观测变量内部没有连接，只在隐变量和观测变量之间有连接(类似神经网络的连接形式)，则：
$\begin{aligned} &\mathop{p(x)}\limits_{\color{blue}\downarrow}=\frac{1}{Z}\exp(-E(X)) {\color{blue}\quad_\text{指数部分进行了简化表示}}\\ &p(h,v)=\frac{1}{Z}\exp(-E(v,h)) \end{aligned}$

其中能量函数 $E (v, h)$ 可以写出三个部分，包括与节点集合相关的两项以及与边 $w$ 相关的一项，记为：
$E(v,h)=-(\underbrace{h^Twv}_{\color{blue}edge}+\underbrace{\alpha^T v}_{\color{blue}node}+\underbrace{\beta^T h}_{\color{blue}node})$

所以RBM的 pdf：
$\begin{aligned} p(x)&=\frac{1}{Z}\exp(h^Twv)\exp(\alpha^T v)\exp(\beta^T h)\\ &=\frac{1}{Z}\prod_{i=1}^m\prod_{j=1}^n\exp(h_iw_{ij}v_j)\prod_{j=1}^n\exp(\alpha_jv_j)\prod_{i=1}^m\exp(\beta_ih_i) \end{aligned}$

上式和 RBM 的因子图一一对应。

推断

推断任务包括求后验概率 $\color{blue}\boxed{p(v|h)},\boxed{p(h|v)}$ 以及边缘概率 $\color{blue}\boxed{p(v)}$

对于一个无向图，满足局域的 Markov 性质，即内部无连接，如 $h_1$ 处：
$p(h_1|h-{h_1},v)=p(h_1|Neighbour(h_1))=p(h_1|v)$

所以可以得到：
$p(h|v)=\prod_{i=1}^mp(h_i|v)$

Binary RBM

考虑 Binary RBM，所有的隐变量只有两个取值 $\color{blue}h_l\in\{0,1\}$ ： ${\color{blue}p(h_l=1|v)}=\frac{p(h_l=1,h_{-l},v)}{p(h_{-l},v)}=\frac{p(h_l=1,h_{-l},v)}{p(h_l=1,h_{-l},v)+p(h_l=0,h_{-l},v)}$

将能量函数写成和 $l$ 相关或不相关的两项：
$\begin{aligned} &E(v,h)=-\left(\sum\limits_{i=1,i\ne l}^m\sum\limits_{j=1}^nh_iw_{ij}v_j+{\color{blue}h_l}\sum\limits_{j=1}^nw_{lj}v_j+\sum\limits_{j=1}^n\alpha_j v_j+\sum\limits_{i=1,i\ne l}^m\beta_ih_i+\beta_l{\color{blue}h_l}\right) \end{aligned}$

定义： $E(v,h)={\color{blue}h_l}H_l(v)+\overline{H}(h_{-l},v)$
$\left\{\begin{aligned} &{\color{blue}h_l}H_l(v)={\color{blue}h_l}\sum\limits_{j=1}^nw_{lj}v_j+\beta_l{\color{blue}h_l}{\color{blue}\qquad\qquad\qquad\qquad\qquad\qquad\ \ _\text{$h_l$相关项}}\\ &\overline{H}(h_{-l},v)=\sum\limits_{i=1,i\ne l}^m\sum\limits_{j=1}^nh_iw_{ij}v_j+\sum\limits_{j=1}^n\alpha_j v_j+\sum\limits_{i=1,i\ne l}^m\beta_ih_i{\color{blue}\qquad_\text{$h_l$无关项}} \end{aligned}\right.$

则有：
$\begin{aligned} {\color{blue}p(h_l=1|v)}&=\frac{\frac1Z\exp\{{\color{blue}1}H_l(v)+\overline{H}(h_{-l},v)\}}{\frac1Z\exp\{{\color{blue}1} H_l(v)+\overline{H}(h_{-l},v)\}+\exp\{\overline{H}(h_{-l},v)\}}\\ &=\frac{1}{1+\exp\{-H_l(v)\}}\\ &={\color{blue}\sigma(H_l(v))} =\sigma\left(\sum\limits_{j=1}^nw_{lj}v_j+\beta_l{\color{blue}}\right) \end{aligned}$

于是就得到了后验概率 $\color{blue}\boxed{p(h|v)}$ ，而后验概率 $\color{blue}\boxed{p(v|h)}$ 与其是对称的，可直接写出

求边缘概率 $\color{blue}\boxed{p(v)}$ 要消除 $\color{blue}h$ ：
$\begin{aligned} \color{blue}p(v)&=\sum\limits_hp(h,v)=\sum\limits_h\frac{1}{Z}\exp(h^Twv+\alpha^Tv+\beta^Th)\\ &=\exp(\alpha^Tv)\frac{1}{Z}\sum\limits_{h_1}\exp(h_1w_1v+\beta_1h_1)\cdots\sum\limits_{h_m}\exp(h_mw_mv+\beta_mh_m)\color{blue}\quad_\text{展开$h$}\\ &=\exp(\alpha^Tv)\frac{1}{Z}(1+\exp(w_1v+\beta_1))\cdots(1+\exp(w_mv+\beta_m))\color{blue}\quad_\text{$h$取0和1}\\ &=\frac{1}{Z}\exp\left\{\alpha^Tv+\sum\limits_{i=1}^m\underbrace{\log(1+\exp(w_iv+\beta_i))}_{\color{blue}softplus:\ \log(1+\exp(x))}\right\} \end{aligned}$