统计自然语言处理——概率图模型（1）

最新推荐文章于 2024-10-31 17:11:04 发布

「已注销」

最新推荐文章于 2024-10-31 17:11:04 发布

阅读量1.5k

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/whaxln/article/details/100065394

版权

本文介绍了概率图模型，包括有向的贝叶斯网络和无向的马尔科夫模型。贝叶斯网络是基于贝叶斯公式，以有向无环图表示变量间的条件依赖；马尔科夫模型则描述了一类状态随时间变化的随机过程，其状态转移仅依赖于前一状态。文章讨论了这两个模型的定义、特点及应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

概率图模型（probabilistic graphical models）在概率模型的基础上，使用了基于图的方法来表示概率分布（或者概率密度、密度函数），是一种通用化的不确定性知识表示和处理方法。
根据图模型的边是否有向，概率图模型通常被划分成有向概率图模型和无向概率图模型。可将图模型粗略的表示为：
常见的图模型

几种常见的图模型

动态贝叶斯网络（dynamic Bayesian networks， DBN）用于处理随时间变化的动态系统中的推断和预测问题；
隐马尔科夫模型（hidden Markov model，HMM）在语音识别，汉语自动分词和词性标注，统计机器翻译等若干语音语言处理任务中得到广泛应用；
卡尔曼滤波器则在信号处理领域有广泛的用途。
马尔科夫网络（Markov network）又称马尔科夫随机场（Markov random field，MRF），马尔科夫网络下的条件随机场（conditional random field，CRF）广泛应用于自然语言处理中的序列标注、特征选择、机器翻译等任务；
玻尔兹曼机（Boltzmann machine）近年来被用于依存句法分析和语义角色标注。

生成式模型与判别式模型

两者本质区别在于：生成式模型（产生式模型）假设y决定x，判别式模型（区分式模型）假设x决定y。

生成式模型：是所有变量的全概率模型，因此可以模拟（“生成”）所有变量的值。在这类模型中一般都有严格的独立性假设，特征是事先给定的，并且特征之间的关系直接体现在公式中。这类模型的嗯有点是处理单类问题时比较灵活，模型变量之间的关系比较清楚，模型可以通过增量学习获得，可用于数据不完整的情况。其弱点在于模型的推导和学习比较复杂。典型的生成式模型由：n元语法模型，HMM，朴素的贝叶斯分类器，概率上下文无关文法等。
判别式模型：符合传统的模型分类思想，认为y由x决定，直接对后验概率 $p (y ∣ x)$ 进行建模，它从 $x$ 中提取特征，学习模型参数，使得条件概率符合一定形式的最优。在这类模型中特征可以任意给定，一般特征是通过函数表示的。这类模型的优点是：处理多类问题或分辨某一类与其他类之间的差异时比较灵活，模型简单，容易建立和学习。其弱点在于模型的描述能力有限，变量之间的关系不清楚，而且大多数区分式模型是有监督学习方法，不能扩展成无监督的学习方法。其代表的区分式模型有：最大熵模型，条件随机场，支持向量机，最大熵马尔科夫模型，感知机等。

贝叶斯网络

贝叶斯网络又称为信度网络或信念网络，是一种基于概率推理的数学模型，其理论基础是贝叶斯公式。

定义

贝叶斯网络就是一个有向无环图（DAG），结点表示随机变量，可以是客观测量、隐含变量、未知参量或假设等；结点之间的有向边表示条件依存关系，箭头指向的结点依存于箭头发出的结点（父节点）。两个结点没有链接关系表示两个随机变量能够在某些特定情况下条件独立，而两个结点有连接关系表示两个随机变量在任何条件下都不存在条件独立。条件独立是贝叶斯网络所依赖的一个核心概念。 每个节点都与一个概率函数相关，概率函数的输入是该节点的父节点所表示的随机变量的一组特定值，输出为当前节点表示的随机变量的概率值。概率函数值的大小实际上表达的是节点之间依存关系的强度。
【例】 如果一篇文章是关于南海岛屿的新闻（将这一事件记作“News”），文章可能包含介绍南海岛屿历史的内容（这一事件记作“History”），但一般不会有太多介绍旅游风光的内容（将事件“有介绍旅游风光的内容”记作“Sightseeing”）。我们可以构造一个简单的贝叶斯网络（其中“T”表示有，是，包含；“F”表示没有，不是，不包含）。
在这里插入图片描述
则三个事件的联合概率函数为：
$=P(H|S,N)\times P(S|N)\times P(N)$
这个模型可以回答如下类似的问题：如果一篇文章中含有南海岛屿历史相关的内容，该文章是关于南海新闻的可能性有多大？

构造贝叶斯网络是一项复杂的任务，设计表示、推断和学习三个方面的问题：

表示：在某一随机变量的集合 $x=\{X_1,L,X_n\}$ 上给出其联合概率分布 $P$ 。这主要问题是，即使随机变量仅有两种取值的简单情况下，一个联合概率分布也需要对所有 $2^n$ 种不同的取值下的概率情况进行说明，这无论从计算代价和人的认知上，都是不可能的或者是代价昂贵的。
推断：由于贝叶斯网络是变量及其关系的完整模型，因此可以回答关于变量的询问，如当观察到某些变量时，推断另一些变量子集的变化。在已知某些证据的情况下，计算变量的后验分布的过程称作概率推断。推理方法包括变量消除法，团树法等。近似推理算法有重要性抽样法，随机马尔科夫链蒙特卡罗模拟法，循环信念传播法和泛华信念传播法等。
学习：参数学习的目的是决定变量之间相互关联的量化关系，即依存强度估计。常用的参数学习方法包括最大似然估计法，最大后验概率法，期望最大化方法和贝叶斯估计方法。