第14章概率图模型

最新推荐文章于 2022-12-20 19:58:50 发布

CharlesVan

最新推荐文章于 2022-12-20 19:58:50 发布

阅读量339

点赞数 1

分类专栏： Machine Learning 文章标签：隐马尔可夫模型条件随机场 MH算法马尔可夫随机场迪利克雷分配模型(LDA)

本文链接：https://blog.csdn.net/williananjhon/article/details/96455505

版权

Machine Learning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

第14章概率图模型

14.1 隐马尔可夫模型

概率模型(probabilistic model)提供了一种描述框架，将学习任务归结于计算变量的概率分布。

在概率模型中，利用已知变量推测未知变量的分布称为推断，其核心是如何基于可观测变量推测出未知变量的条件分布。

隐马尔可夫模型(Hidden Markov Model, HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian network)，主要用于时序数据建模。

马尔科夫链(Markov chain)：系统下一刻的状态仅由当前状态决定，不依赖于以往的任何状态。

隐马尔可夫模型中的变量可分为两组。第一组是状态变量 $\left\{ y_{1},y_{2},\ldots,y_{n} \right\}$ ，其中 $y_{i}\mathcal{\in Y}$ 表示第 $i$ 时刻的系统状态。第二组是观测变量 $\left\{ x_{1},x_{2},\ldots,x_{n} \right\}$ ，其中 $x_{i}\mathcal{\in X}$ 表示第 $i$ 时刻的观测值。系统多状态之间的转换为 $\left\{ s_{1},s_{2},\ldots,s_{N} \right\}$ ，假定其取值范围 $\mathcal{X} = \left\{ o_{1},o_{2},\ldots,o_{M} \right\}$ ，所有变量的联合概率分布为

$P\left( x_{1},y_{1},\ldots,x_{n},y_{n} \right) = P\left( x_{1} \middle| y_{1} \right)\prod_{i = 2}^{n}{P\left( y_{i} \middle| y_{i - 1} \right)P\left( x_{i} \middle| y_{i} \right)}$

状态转移概率：模型各个状态间转换的概率，通常记为矩阵 $\left\lbrack a_{\text{ij}} \right\rbrack_{N \times N}$ ，其中

$a_{\text{ij}} = P\left( y_{t + 1} = s_{j} \middle| y_{t} = s_{i} \right),1 \leq i,j \leq N$

表示在任意时刻 $t$ ，若状态为 $s_{i}$ ，则下一时刻状态为 $s_{j}$ 的概率。

输出观测概率：模型根据当前状态获得各个观测值的概率，通常记为矩阵 $\left\lbrack b_{\text{ij}} \right\rbrack_{N \times M}$ ，其中

$b_{\text{ij}} = \ P\left( x_{t} = o_{j} \middle| y_{t} = s_{i} \right),1 \leq i \leq N,1 \leq j \leq M$

表示在任意时刻 $t$ ，若状态为 $s_{i}$ ，则观测值 $o_{j}$ 被获取的概率。

初始状态概率：模型在初始时刻各状态出现的概率，通常记为 $\pi = \left\{ \pi_{1},\pi_{2},\ldots,\pi_{N} \right\}$ ，其中

$\pi_{i} = P\left( y_{1} = s_{i} \right),1 \leq i \leq N$

表示模型的初始状态为 $s_{i}$ 的概率。

通过指定状态空间 $\mathcal{Y}$ 、观测空间 $\mathcal{X}$ 和上述三组参数，就能确定一个隐马尔可夫模型，通常用其参数 $\lambda = \left\lbrack A,B,\pi \right\rbrack$ 来指代。给定隐马尔可夫模型 $\lambda$ ，按如下过程产生观测序列：

1、设置 $t = 1$ ，并根据初始状态概率选择初始状态 $y_{1}$

2、根据状态 $y_{t}$ 和输出观测概率B选择观测变量取值 $x_{t}$

3、根据状态 $y_{t}$ 和状态转移矩阵A转移模型状态，即确定 $y_{t + 1}$

4、若 $t < n$ ，设置 $t = t + 1$ ，并转到2步，否则停止

其中 $y_{t} \in \left\{ s_{1},s_{2},\ldots,s_{N} \right\}$ 和 $x_{t} \in \left\{ o_{1},o_{2},\ldots,o_{M} \right\}$ 分别为第 $t$ 时刻的状态和观测值。

14.2 马尔可夫随机场

在马尔可夫随机场中，对于n个变量 $\left\{ x_{1},x_{2},\ldots,x_{n} \right\}$ ，所有团构成的集合为 $\mathcal{C}$ ，与团 $Q\mathcal{\in C}$ 对应的变量集合记为 $x_{Q}$ ，则联合概率 $P\left( x \right)$ 定义为

$P\left( x \right) = \frac{1}{Z}\prod_{Q\mathcal{\in C}}^{}{\psi_{Q}\left( x_{Q} \right)}$

其中 $\psi_{Q}$ 为与团Q对应的势函数，用于对团Q中的变量关系进行建模， $\sum_{x}^{}{\prod_{Q\mathcal{\in C}}^{}{\psi_{Q}\left( x_{Q} \right)}}$ 为规范化因子，以确保 $P\left( x \right)$ 是被正确定义的概率。

假定所有极大团构成的集合为 $\mathcal{C}^{*}$ ，则有

$P\left( x \right) = \frac{1}{Z^{*}}\prod_{Q \in \mathcal{C}^{*}}^{}{\psi_{Q}\left( x_{Q} \right)}$

其中 $Z^{*} = \sum_{x}^{}{\prod_{Q \in \mathcal{C}^{*}}^{}{\psi_{Q}\left( x_{Q} \right)}}$ 为规范化因子

全局马尔可夫性(global Markov property)：给定两个变量子集的分离集，则这两个变量子集条件独立。

局部马尔可夫性(local Markov property)：给定某变量的邻接变量，则该变量条件独立于其他变量

成对马尔可夫性(pairwise Markov property)：给定所有其他变量，两个非邻接变量条件独立。

14.3 条件随机场

条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型。条件随机场对多个变量在给定观测值后的条件概率进行建模。

令 $\left\langle V,E \right\rangle$ 表示结点于标记变量 $y$ 中的元素一一对应的无向图， $y_{v}$ 表示与结点 $v$ 对应的标记变量， $n\left( v \right)$ 表示结点 $v$ 的邻接结点，若图 $G$ 的每个变量 $y_{v}$ 都满足马尔可夫性，即

$\ { v } } = P ( y v ∣ x , y n ( v ) ) P\left\{ y_{v} \middle| x,y\backslash\left\{ v \right\} \right\} = P\left( y_{v} \middle| x,y_{n\left( v \right)} \right)$

则 $\left( y,x \right)$ 构成一个条件随机场。

在条件随机场中，通过选用指数势函数并引入特征函数，条件概率被定义为

$P\left( y \middle| x \right) = \frac{1}{Z}\exp\left( \sum_{j}^{}{\sum_{i = 1}^{n - 1}{\lambda_{j}t_{j}\left( y_{i + 1},x,i \right)}} + \sum_{k}^{}{\sum_{i = 1}^{n}{\mu_{k}s_{k}\left( y_{i},x,i \right)}} \right)$

其中 $t_{j}\left( y_{i + 1},x,i \right)$ 是定义在观测序列的两个相邻标记位置上的转移特征函数(transition feature
function)，用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响， $s_{k}\left( y_{i},x,i \right)$ 是定义在观测序列的标记位置 $i$ 上的状态特征函数(status feature function)，用于刻画观测序列对标记变量的影响， $\lambda_{j},\mu_{k}$ 为参数， $Z$ 为规范化因子。

14.4 学习与推断

基于概率图模型定义的联合概率分布，对目标变量的边际分布(marginal distribution)或以某些可观测变量为条件的条件分布进行推测。

边际分布：对无关变量求和或积分后得到结果。

对概率图模型，还需确定具体分布的参数，使用极大似然估计或最大后验概率估计求解。

假设图模型所对应的变量集 $\left\{ x_{1},x_{2},\ldots,x_{N} \right\}$ 能分为 $x_{E}$ 和 $x_{F}$ 两个不相交的变量集，推断问题的目标就是计算边际概率 $P\left( x_{E} \right)$ 或条件概率 $P\left( x_{F} \middle| x_{E} \right)$ 。由条件概率定义有

$P\left( x_{F} \middle| x_{E} \right) = \frac{P\left( x_{E},x_{F} \right)}{P\left( x_{E} \right)} = \frac{P\left( x_{E},x_{F} \right)}{\sum_{x_{F}}^{}{P\left( x_{E},x_{F} \right)}}$

其中联合概率 $P\left( x_{E},x_{F} \right)$ 可基于概率图模型获得。

计算边际分布

$P\left( x_{E} \right) = \sum_{x_{F}}^{}{P\left( x_{E},x_{F} \right)}$

14.4.1 变量消去

精确推断的变质是一类动态规划算法，利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。

缺点：若计算多个边际分布，重复使用变量消去法将会造成大量的冗余计算。

14.4.2 信念传播

信念传播(Belief Propagation)算法将变量消去法中的求和操作看作一个消息传递过程，较好地解决了求解多个边际分布时的重复计算问题。

变量消去法通过求和操作

$\ j m ki ( x i ) m_{\text{ij}}\left( x_{j} \right) = \sum_{x_{i}}^{}{\psi\left( x_{i},x_{j} \right)\prod_{k \in n\left( i \right)\backslash j}^{}{m_{\text{ki}}\left( x_{i} \right)}}$

消去变量 $x_{i}$ ，其中 $n\left( i \right)$ 表示结点 $x_{i}$ 的邻接结点。

在信念传播算法中，一个结点仅在接收到来自其他所有结点的消息后才能向另一个结点发送消息，且结点的边际分布正比于它所接收的信息的乘积，即

$P\left( x_{i} \right) \propto \prod_{k \in n\left( i \right)}^{}{m_{\text{ki}}\left( x_{i} \right)}$

若图结构中没有环，则信念传播算法经过两个步骤即可完成所有信息传递，进而能计算所有变量上的边际分布：

1、指定一个根结点，从所有叶结点开始向根结点传递消息，直到根结点收到所有邻接结点的消息

2、从根结点开始向叶结点传递消息，直到所有叶结点均受到消息

14.5 近似推断

14.5.1 MCMC采样

假定目标是计算函数 $f\left( x \right)$ 在概率密度函数 $p\left( x \right)$ 下的期望

$\mathbb{E}_{p}\left( f \right) = \int_{}^{}{f\left( x \right)p\left( x \right)\text{dx}}$

则可根据 $p\left( x \right)$ 抽取一组样本 $\left\{ x_{1},x_{2},\ldots,x_{N} \right\}$ ，然后计算 $f\left( x \right)$ 在这些样本上的均值

$\hat{f} = \frac{1}{N}\sum_{i = 1}^{N}{f\left( x_{i} \right)}$

概率图模型中最常用的采样技术是马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法。

给定连续 $x\mathcal{\in X}$ 的概率密度函数 $p\left( x \right)$ ， $x$ 在区间A中的概率可计算为

$P\left( A \right) = \int_{A}^{}{p\left( x \right)\text{dx}}$

若有函数 $f:\mathcal{X}\mathbb{\mapsto R}$ ，则可计计算 $f\left( x \right)$ 的期望

$p\left( f \right) = \mathbb{E}_{p}\left\lbrack f\left( \mathcal{X} \right) \right\rbrack = \int_{x}^{}{f\left( x \right)p\left( x \right)\text{dx}}$

MCMC先构造服从 $p$ 分布的独立分布随机变量 $\left\{ x_{1},x_{2},\ldots,x_{N} \right\}$ ，再得无偏估计

$\hat{p}\left( f \right) = \frac{1}{N}\sum_{i = 1}^{N}{f\left( x_{i} \right)}$

假定平稳马尔科夫链 $T$ 的状态转移概率为 $T\left( x \middle| x' \right)$ ， $t$ 时刻状态的分布为 $p\left( x^{t} \right)$ ，则若在某时刻马尔科夫链满足平稳条件

$p\left( x^{t} \right)T\left( x^{t - 1} \middle| x^{t} \right) = p\left( x^{t - 1} \right)T\left( x^{t} \middle| x^{t - 1} \right)$

则 $p\left( x \right)$ 是该马尔科夫链的平稳分布，且马尔科夫链在满足该条件时已收敛到平稳状态。

Metropolis-Hastings算法

基于拒绝采样(reject sampling)来逼近平稳分布 $p$ 。算法每次根据上一轮采样结果 $x^{t - 1}$ 来采样获得候选状态样本 $x^{*}$ ，但这个候选样本回忆一定的概率被拒绝掉。假定从状态 $x^{t- 1}$ 到状态 $x^{*}$ 的转移概率为 $Q\left( x^{*} \middle| x^{t - 1} \right)A\left( x^{*} \middle| x^{t - 1} \right)$ ，其中 $Q\left( x^{*} \middle| x^{t - 1} \right)$ 是用户给定的先验概率， $A\left( x^{*} \middle| x^{t - 1} \right)$ 是 $x^{*}$ 被接受的概率。若 $x^{*}$ 最终收敛到平稳状态，则有

$p\left( x^{t - 1} \right)Q\left( x^{*} \middle| x^{t - 1} \right)A\left( x^{*} \middle| x^{t - 1} \right) = p\left( x^{*} \right)Q\left( x^{t - 1} \middle| x^{*} \right)A\left( x^{t - 1} \middle| x^{*} \right)$

将接受率设置为

$A\left( x^{*} \middle| x^{t - 1} \right) = \min\left( 1,\frac{p\left( x^{*} \right)Q\left( x^{t - 1} \middle| x^{*} \right)}{p\left( x^{t - 1} \right)Q\left( x^{*} \middle| x^{t - 1} \right)} \right)$
在这里插入图片描述
吉布斯采样(Gibbs sampling)

假定 $\left\{ x_{1},x_{2},\ldots,x_{N} \right\}$ ，目标分布为 $p\left( x \right)$ ，在初始化 $x$ 的取值后，通过循环执行以下步骤来完成采样：

1、随机或以某个次序选取某变量 $x_{i}$

2、根据 $x$ 中除 $x_{i}$ 之外是变量的现有取值，计算条件概率 $p\left( x_{i} \middle| x_{\overset{\overline{}}{i}} \right)$ ，其中 $x_{\overset{\overline{}}{i}} = \left\{ x_{1},x_{2},\ldots x_{i- 1},x_{i + 1},{\ldots,x}_{N} \right\}$

3、根据 $p\left( x_{i} \middle| x_{\overset{\overline{}}{i}} \right)$ 对变量 $x_{i}$ 采样，用采样值代替原值

14.5.2 变分推断

变分推断通过使用已知简单分布来逼近需推断的复杂分布，并通过限制近似分布的类型，从而得到一种局部最优、但具有确定解的近似后验分布。

变量 $x$ 的联合分布的概率密度函数为

$p\left( x \middle| \Theta \right) = \prod_{i = 1}^{N}{\sum_{z}^{}{p\left( x_{i},z \middle| \Theta \right)}}$

所对应的对数似然函数为

$\ln{p\left( x \middle| \Theta \right) = \sum_{i = 1}^{N}{\ln\left\{ \sum_{z}^{}{p\left( x_{i},z \middle| \Theta \right)} \right\}}}$

其中 $\left\{ x_{1},x_{2},\ldots,x_{N} \right\}$ ， $\Theta$ 是 $x$ 与 $z$ 服从的分布参数。

用EM算法：在E步，根据 $t$ 时刻的参数 $\Theta^{t}$ 对 $p\left( z \middle| x,\Theta \right)$ 进行推断，并计算联合似然函数 $p\left( ,z \middle| \Theta \right)$ ;在M步，基于E步的结果进行最大化寻优，即对关于变量 $\Theta$ 的函数 $\mathcal{Q}\left( \Theta;\Theta^{t} \right)$ 进行最大化从而求取
在这里插入图片描述
近似分布

$q\left( z \right) = \ln{p\left( x \right)}\mathcal{= L}\left( q \right) + KL\left( q \middle| \left| p \right.\ \right)$

其中

$\mathcal{L}\left( q \right) = \int_{}^{}{q\left( z \right)\ln\left\{ \frac{p\left( x,z \right)}{q\left( z \right)} \right\}}dz$

$\text{KL}\left( q \middle| \left| p \right.\ \right) = - \int_{}^{}{q\left( z \right)\ln\frac{p\left( z \middle| x \right)}{q\left( z \right)}}\ dz$

14.6 话题模型

话题模型(topic model)：是一簇生成式有向图模型。主要用于处理离散型的数据。

词：待处理数据的基本离散单元

文档：待处理的数据对象，它由一组词组成，这些词在文档中是不计顺序的

话题：表示一个概念，具体表示为一系列相关的词，以及它们在该概念下出现的频率。

隐狄利克雷分配模型(Latent Dirichlet Allocation, LDA)

用向量 $\Theta_{t} \in \mathbb{R}^{K}$ 表示文档 $t$ 中所包含的每个话题的比例， $\Theta_{t,k}$ 表示文档 $t$ 中包含话题 $k$ 的比例，进而通过下面的步骤由话题生成文档 $t$ ：

1、根据参数为 $\alpha$ 的狄利克雷分布随机采样一个话题分布 $\Theta_{t}$

2、按如下步骤生成文档中的 $N$ 个词：

(a)、根据 $\Theta_{t}$ 进行话题指派，得到文档 $t$ 中词 $n$ 的话题 $z_{t,n}$

(b)、根据指派的话题所对应的词频分布 $\beta_{k}$ (依赖参数 $\eta$ )随机采样生成词

LDA模型对应的概率分布为

$p\left( W,z,\beta,\Theta \middle| \alpha,\eta \right) = \prod_{t = 1}^{T}{p\left( \Theta_{t} \middle| \alpha \right)\prod_{i = 1}^{K}{p\left( \beta_{k} \middle| \eta \right)\left( \prod_{n = 1}^{N}{P\left( \omega_{t,n} \middle| z_{t,n},\beta_{k} \right)}P\left( z_{t,n} \middle| \Theta_{t} \right) \right)}}$

其中 $p\left( \Theta_{t} \middle| \alpha \right)$ 和 $p\left( \beta_{k} \middle| \eta\right)$ 通常分别设置为以 $\alpha$ 和 $\eta$ 为参数的 $K$ 维和 $N$ 维狄利克雷分布，词频向量 $\omega_{i}\left(i = 1,2,\ldots,T \right)$

给定训练数据 $\left\{ \omega_{1},\omega_{2},\ldots,\omega_{T} \right\}$ ，LDA的模型参数可通过极大似然法估计，即寻找 $\alpha$ 和 $\eta$ 以最大化对数似然

$\text{LL}\left( \alpha,\eta \right) = \sum_{t = 1}^{T}{\ln{p\left( \omega_{t} \middle| \alpha,\eta \right)}}$

若模型已知，即参数 $\alpha$ 和 $\eta$ 已确定，则根据词频 $\omega_{t,n}$ 来推断文档集所对应的话题结构可通过求解

$p\left( z,\beta,\Theta \middle| W,\alpha,\eta \right) = \frac{p\left( W,z,\beta,\Theta \middle| \alpha,\eta \right)}{p\left( W \middle| \alpha,\eta \right)}$

CharlesVan

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第14章概率图模型

第14章概率图模型14.1 隐马尔可夫模型概率模型(probabilistic model)提供了一种描述框架，将学习任务归结于计算变量的概率分布。在概率模型中，利用已知变量推测未知变量的分布称为推断，其核心是如何基于可观测变量推测出未知变量的条件分布。隐马尔可夫模型(Hidden Markov Model, HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian netw...
复制链接

扫一扫