24 直面配分函数——Confronting Partition Function

最新推荐文章于 2024-07-06 19:05:11 发布

hanhan不是很憨憨

最新推荐文章于 2024-07-06 19:05:11 发布

阅读量152

点赞数 1

分类专栏：机器学习-白板推导文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_50737833/article/details/131665614

版权

机器学习-白板推导专栏收录该内容

29 篇文章 0 订阅

订阅专栏

文章目录

24 直面配分函数——Confronting Partition Function

24 直面配分函数——Confronting Partition Function

24.1 Stochastic Gradient of log-likelihood——log配分函数在随机梯度上升中的应用

为什么要使用配分函数呢？简单来说就是为了在分布太复杂无法计算的时候，帮你把困难的分布转换为简单的分布。我们也经常在MLE中使用这种方法。

假如我们此时要在MLE的Learning问题中通过梯度上升求解参数，我们有以下条件：

数据： $\in {\mathbb R}^p, {\lbrace 0, 1 \rbrace}^p$
分布转换： $\theta) = \frac{1}{Z(\theta)} {\hat P}(X | \theta), Z(\theta) = \int {\hat P}(X | \theta) {\rm d}x$

我们可以将MLE的公式写成（给定条件 ${\lbrace x_i \rbrace}_{i=1}^N$ ，参数为 $\theta$ ）：
$\begin{align} {\hat \theta} &= arg\max_\theta P(X|\theta) = arg\max_\theta \prod_{i=1}^N P(x_i|\theta) \\ &= arg\max_\theta \log \prod_{i=1}^N P(x_i|\theta) = arg\max_\theta \sum_{i=1}^N log P(x_i|\theta) \\ &= arg\max_\theta \sum_{i=1}^N log {\hat P}(x_i|\theta) - N \cdot \log Z(\theta) \\ &= arg\max_\theta \underbrace{ \frac{1}{N} \sum_{i=1}^N log {\hat P}(x_i|\theta) - \cdot \log Z(\theta)}_{{\mathcal L}(\theta)} \end{align}$
此时我们采用梯度上升法求解的话，就需要求解梯度 $\nabla_\theta {\mathcal L}(\theta)$ ，我们可以对梯度做一些数学变换，使得要求的梯度变成几部分：
$\nabla_\theta {\mathcal L}(\theta) = \frac{1}{N} \sum_{i=1}^N \underbrace{\nabla_\theta \log {\hat P}(x_i|\theta)} - \underbrace{\nabla_\theta \log Z(\theta)}$
第一部分的梯度很好求，因为我们假定的 ${\hat P}(x_i|\theta)$ 是一个简单分布，难点在右边，我们对右边进行数学变换：
$\begin{align} \nabla_\theta \log Z(\theta) &= \frac{1}{Z(\theta)} \nabla_\theta Z(\theta) = \frac{P(X|\theta)}{{\hat P}(X|\theta)} \nabla_\theta \int {\hat P}(X|\theta) \\ &= \int \frac{P(X|\theta)}{{\hat P}(X|\theta)} \nabla_\theta {\hat P}(X|\theta) = \int {P(X|\theta)} \nabla_\theta \log {\hat P}(X|\theta) \\ &= E_{P(X|\theta)}[\nabla_\theta \log {\hat P}(X|\theta)] \end{align}$
经过转换，我们知道 $\nabla_\theta \log {\hat P}(X|\theta)$ ，只要里面求得出来，且化成了期望的形式，我们就可以通过Monte Carlo方法求出近似解。若采样的数据是通过MCMC采样的且表示为 ${\hat X} = {\lbrace {\hat x}_1, {\hat x}_2, \dots, {\hat x}_M \rbrace}$ 具体的梯度上升公式可以写作（前半部分假设是从N个已知数据中采样出了M个）：
$\theta^{(t+1)} = \theta^{(t)} + \eta \nabla_\theta {\mathcal L}(\theta) = \theta^{(t)} + \eta \left( \sum_{i=1}^M \nabla_\theta \log {\hat P}(x_i|\theta) - \sum_{i=1}^M \nabla_\theta \log {\hat P}({\hat x}_i|\theta) \right)$

通过上面的介绍已经能理解求解方法了，然后我们要对这个方法做一个解释。

上面的梯度公式，其实我们可以通过变换写作：
${\mathcal L}(\theta) = \underbrace{E_{P_{Data}}[\nabla_\theta \log {\hat P}(x_i|\theta)]}_{\text{positive phase}} - \underbrace{E_{P_{Model}}[\nabla_\theta \log {\hat P}(X|\theta)]}_{\text{negative phase}}$
其中的 $P_{Data}$ 和 $P_{Model}$ 代表什么意思呢？

$P_{Data}$ ：表示现实分布，采样的结果其实就是用到的训练数据
$P_{Model}$ ：表示我们构建的模型分布，可以通过MCMC进行采样

其中两项分别说明：

现实分布：带来的结果毋庸置疑是给分布带来积极作用的，使得结果分布在 $P_{Data}$ 的高概率区域取值更大
模型分布：由于模型是猜测的， $P_{Model}$ 是不准确的，所以 $P_{Model}$ 高概率区域反而应该降低

24.2 CD——Contrastive Divergence

24.2.1 CD简述

核心思想：由于采样的mixing time可能过长，所以通过修改初始值，选择一个更快可以到达均匀分布的初始值。

具体实现：初始值直接选用 $P_{Data}$ 的值。

具体情况也会使用k-CD（CD-k），k表示mcmc的mixing time具体做几步。不一定要到达均匀分布再采样，忽略这个误差。

24.2.2 CD的由来——CD Learning

从MLE来看，我们可以将公式进行一个转换：
$\begin{align} {\hat \theta} &= arg\max_{\theta} \sum_{i=1}^{N} \log_\theta(x_i) \\ &= arg\max_{\theta} \frac{1}{N} \sum_{i=1}^{N} \log(x_i;\theta) \\ &= arg\max_{\theta} E_{P_{data}} \big[ \log_{P_{model}}(x_i;\theta) \big] \\ &= arg\max_{\theta} \int P_{data} \cdot \log P_{model} {\rm d}x \\ &= arg\max_{\theta} \int P_{data} \cdot \log \frac{P_{model}}{P_{data}} {\rm d}x \\ &= arg\max_{\theta} -KL(P_{data} \Vert P_{model}) \\ &= arg\min_{\theta} KL(P_{data} \Vert P_{model}) \\ \end{align}$
我们又假设 $P^{(0)}$ 表示样本数据（同时也是P_{model}原始数据）， $P^{(\infty)}$ 表示均匀分布的采样数据，而 $P^{(k)}$ 表示CD-k采样出来的数据。所以我们可以写得：
${\hat \theta} = arg\min_{\theta} KL(P_{data} \Vert P_{model}) = arg\min_{\theta} KL(P^{(0)} \Vert P^{(\infty)})$
根据以上的内容，我们引入CD-k的公式：
${\hat \theta} = arg\min_{\theta} \big[ KL(P^{(0)} \Vert P^{(\infty)}) - KL(P^{(k)} \Vert P^{(\infty)}) \big]$
其中 $KL(P^{(0)} \Vert P^{(\infty)}) - KL(P^{(k)} \Vert P^{(\infty)})$ 被称作Contrastive Divergence，这一部分与过去求出的梯度公式 ${\mathcal L}(\theta) = {E_{P_{Data}}[\nabla_\theta \log {\hat P}(x_i|\theta)]} - {E_{P_{Model}}[\nabla_\theta \log {\hat P}(X|\theta)]}$ 近似。

24.3 RBM Learning

Learning问题我们已经做过很多了，无非就是通过其log-likelihood，然后通过求导得到其极值，从而求得其参数近似解。

首先回忆一下RBM中的公式是什么：
$\begin{cases} P(V, H) = \frac{1}{Z} \exp{\lbrace - E(V, H) \rbrace} \\ E(V, H) = - {({H^T W V} + {\alpha^T V} + {\beta^T H})} \end{cases}$
然后我们可以将其log-likelihood写出来，因为V表示为条件数据，所以Learning问题可以表示为：
${\hat \theta} = \frac{1}{N} \sum_{v \in S} \log P(V)$
首先我们可以对 $\log P(V)$ 做一个变换：
$\begin{align} \log P(V) &= \log \sum_{H} P(H, V) = log \sum_{H} \frac{1}{z} \exp {\lbrace -E(H, V) \rbrace} \\ &= \log \sum_{H} \exp {\lbrace -E(H, V) \rbrace} - \log z \\ &= \log \sum_{H} \exp {\lbrace -E(H, V) \rbrace} - \log \sum_{H, V} \exp {\lbrace -E(H, V) \rbrace} \\ \end{align}$
我们分别对左右两项进行求导，左边通过变换可以得到：
$\begin{align} \nabla left &= \nabla \log \sum_{H} \exp {\lbrace -E(H, V) \rbrace} \\ &= \frac{1}{\sum_{H} \exp {\lbrace -E(H, V) \rbrace}} \nabla \sum_{H} \exp {\lbrace -E(H, V) \rbrace} \\ &= - \frac{1}{\sum_{H} \exp {\lbrace -E(H, V) \rbrace}} \sum_{H} \left[ \exp {\lbrace -E(H, V) \rbrace} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H} \left[ \frac{ \exp {\lbrace -E(H, V) \rbrace}}{\sum_{H} \exp {\lbrace -E(H, V) \rbrace}} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H} \left[ \frac{\frac{1}{z} \exp {\lbrace -E(H, V) \rbrace}}{\sum_{H} \frac{1}{z} \exp {\lbrace -E(H, V) \rbrace}} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H} \left[ \frac{P(H, V)}{P(V)} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H} \left[ P(H|V) \cdot \nabla E(H, V) \right] \\ \end{align}$
右边通过变换可以得到：
$\begin{align} \nabla right &= \nabla \log \sum_{H, V} \exp {\lbrace -E(H, V) \rbrace} \\ &= \frac{1}{\exp {\lbrace -E(H, V) \rbrace}} \nabla \sum_{H, V} \exp {\lbrace -E(H, V) \rbrace} \\ &= - \frac{1}{\sum_{H, V} \exp {\lbrace -E(H, V) \rbrace}} \sum_{H, V} \left[ \exp {\lbrace -E(H, V) \rbrace} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H, V} \left[ \frac{\exp {\lbrace -E(H, V) \rbrace}}{\sum_{H, V} \exp {\lbrace -E(H, V) \rbrace}} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H, V} \left[ \frac{1}{z} \exp {\lbrace -E(H, V) \rbrace} \cdot \nabla E(H, V) \right] \\ &= - \sum_{H, V} \left[ P(H, V) \cdot \nabla E(H, V) \right] \\ \end{align}$
所以我们可以得到结果为：
$\begin{align} \nabla \log P(V) &= - \sum_{H} \left[ P(H|V) \cdot \nabla E(H, V) \right] + \sum_{H, V} \left[ P(H, V) \cdot \nabla E(H, V) \right] \end{align}$

参数 $\theta$ 中包含 $(h_1, h_2, \dots, h_m)^T, V = (v_1, v_2, \dots, v_m)^T, W = [w_{ij}]_{m \times n}$ 具体以求解 $w_{ij}$ 为例。

根据之前的公式，加上由于 $\nabla_{w_{ij}} E(H, V) = - h_i v_j$ ，这个很简单。所以我们可以得到：
$\begin{align} \nabla_{w_{ij}} \log P(V) &= - \sum_{H} \left[ P(H|V) \cdot \nabla_{w_{ij}} E(H, V) \right] + \sum_{H, V} \left[ P(H, V) \cdot \nabla_{w_{ij}} E(H, V) \right] \\ &= - \sum_{H} \left[ P(H|V) \cdot (- h_i v_j) \right] + \sum_{H, V} \left[ P(H, V) \cdot (- h_i v_j) \right] \\ &= \sum_{H} \left[ P(H|V) \cdot h_i v_j \right] - \sum_{H, V} \left[ P(H, V) \cdot h_i v_j \right] \\ \end{align}$
这里已经得出来结果了，但因为在RBM中，隐变量的值一般都是0/1变量，所以还可以继续化简：
$\begin{align} left &= \sum_{H} \left[ P(H|V) \cdot h_i v_j \right] \\ &= \sum_{h_1} \sum_{h_2} \dots \sum_{h_m} \left[ P(h1, h2, \dots, h_m|V) \cdot h_i v_j \right] \\ &= \sum_{h_i} \left[ P(hi|V) \cdot h_i v_j \right] \\ &= P(h_i=1|V) \cdot v_j \\ \end{align}$

$\begin{align} right &= \sum_{H, V} \left[ P(H, V) \cdot h_i v_j \right] \\ &= \sum_{H} \sum_{V} \left[ P(V) \cdot P(H|V) \cdot h_i v_j \right] \\ &= \sum_{V} \left[ P(V) \cdot \sum_{H} \left[ P(H|V) \cdot h_i v_j \right] \right] \\ &= \sum_{V} \left[ P(V) \cdot P(h_i=1|V) \cdot v_j \right] \\ \end{align}$

所以最终可以化为：
$\begin{align} \nabla_{w_{ij}} \log P(V) &= P(h_i=1|V) \cdot v_j - \sum_{V} \left[ P(V) \cdot P(h_i=1|V) \cdot v_j \right] \end{align}$

此时我们可以看出来公式的左边是可解的，不过公式的右边可能无法求出积分，所以要对右边进行采样，通过MCMC求解。我们在这里选取的采样方法就是CD-k，是一种特殊的Gibbs采样。

我们现在的核心就是对公式的右边进行采样求解，首先就要将其化为期望的形式：
$\sum_{V} \left[ P(V) \cdot P(h_i=1|V) \cdot v_j \right] = E_{P(V)} \left[ P(h_i=1|V) \cdot v_j \right]$
所以我们要在 $P (V)$ ，也就是 $P (V ∣ H)$ 中进行采样。根据这个我们也就知道，我们不止要对 $V$ 进行采样，也要对 $H$ 进行采样。具体的流程可以写为：

For V in S:
$V$ <- $V^{(0)}$
For l = 0 to k-1:
For i = 1 to m:
get sample $h^{(l)}_{i} \backsim P(H | V^{(l)})$
For i = 1 to n:
get sample $v^{(l+1)}_{j} \backsim P(V | H^{(l)})$
For i = 1 to m:
For j = 1 to n:
$\nabla w_{ij}$ <- $\nabla w_{ij} + \nabla \log P(V)$

我们可以看出来，我们是对 $H$ 和 $V$ 进行交替采样，并且最后进行梯度上升得到结果。其中 $\nabla \log P(V)$ 就是之前求出来的公式，我们假设训练数据表示为 $V^{(0)}$ ，CD-k采样出来的样本表示为 $V^{(k)}$ ，则 $\nabla \log P(V)$ 可以表示为：
$\nabla \log P(V) \approx P(h_i=1|V^{(0)}) \cdot v^{(0)}_j - P(h_i=1|V^{(k)}) \cdot v^{(k)}_j$

hanhan不是很憨憨

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
24 直面配分函数——Confronting Partition Function

文章目录24 直面配分函数——Confronting Partition Function24.1 Stochastic Gradient of log-likelihood——log配分函数在随机梯度上升中的应用24.2 CD——Contrastive Divergence24.2.1 CD简述24.2.2 CD的由来——CD Learning24.3 RBM Learning24 直面配分函数——Confronting Partition Function24.1 Stochastic Gradie
复制链接

扫一扫