隐马尔可夫模型

最新推荐文章于 2024-03-11 08:06:42 发布

仲夏夜茫七月未央

最新推荐文章于 2024-03-11 08:06:42 发布

阅读量2k

点赞数 1

分类专栏： nlp 文章标签：自然语言处理机器学习 nlp

本文链接：https://blog.csdn.net/weixin_43821620/article/details/122966559

版权

nlp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

隐马尔可夫模型

隐马尔可夫模型（Hidden Markov Model， HMM）是描述两个时序序列联合分布 p(x,y) 的概率模型： $x$ 序列外界可见（外界指的是观测者），成为观测序列（observation sequence）； $y$ 序列外界不可见，称为状态序列（state sequence）。比如观测 $x$ 为单词，状态 $y$ 为词性，我们需要根据单词序列去猜测他们的词性。隐马尔可夫模型之所以称为“隐”，是因为从外界来看，状态序列（例如词性）隐藏不可见，是待求的因变量。从这个角度来讲，人们也称状态为隐状态，而称观测为显状态。隐马尔可夫模型之所以称为“马尔可夫模型”，是因为它满足马尔可夫假设。

通俗易懂的解释可以看以下链接：

https://www.cnblogs.com/fulcra/p/11065474.html

1、马尔可夫假设

每个事情的发生概率只取决于前一个事件。将满足该假设的连续多个事件串联在一起，就构成了马尔可夫链。在NLP的语境下，可以将事件具象为单词，于是马尔可夫模型就具象为二元语法模型。

再次基础上，隐马尔可夫模型理解起来就并不复杂了：它的马尔可夫假设作用于状态序列，假设①当前状态 $y_i$ 仅仅依赖前一个状态 $y_{i-1}$ ，连续多个状态构成隐马尔可夫链 $y$ 。有了隐马尔可夫链，如何与观测序列x建立联系呢？

隐马尔可夫模型做了第二个假设：②任意时刻的观测 $x_t$ 只依赖与该时刻的状态 $y_t$ ，与其他时刻的状态或观测独立无关。如果用箭头表示事件的依赖关系（箭头终点表示结果，依赖于起点的因缘），则隐马尔可夫模型可以表示为图4-7。

在这里插入图片描述

这张图也许有一丝违和感，按通常理解，应当是 $x$ 决定 $y$ ，而不是反过来。这是由于在联合概率分布 $p (x, y)$ 中，两个随机变量并没有固定的先后与因果关系，即 $p (x, y) = p (y, x)$ 。从贝叶斯定理的角度来讲，联合分布完全可以做两种等价变换：
$p (x, y) = p (x) p (y ∣ x) = p (y) p (x ∣ y)$
隐马尔可夫只不过在假设②中采用了后一种变换而已，即假定先有状态，后有观测，取决于两个序列的可见与否。这种因果关系在现实生活中也能找到例子，比如写文章可以想象为先在脑子中构思好一个满足语法词性的词性序列，然后再将每个词性填充为具体的词语。

状态和观测之间的依赖关系确定之后，隐马尔可夫模型利用三个要素来模拟时序序列的发生过程——即初始状态概率向量、状态转移概率矩阵和发射概率矩阵（也称作观测概率矩阵），接下来三小节中分别介绍。

2、初始状态概率向量

系统启动时进入的第一个状态 $y_1$ 称为初始状态，假设y有N中可能的取值，即 $y∈{s_1,···，s_N}$ ，那么y₁ 就是一个独立的离散型随机变量，由 $p(y_1|\pi)$ 描述。其中 $\pi=(\pi_1,\cdots,\pi_N)^T，0\leq\pi_i\leq1,\sum_{i=1}^{N}\pi=1$ 是概率分布的参数向量，称为初始状态概率向量。让我们把它添加到示意图上，如图4-8虚线所示。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oup9HDeL-1645000219497)(image/image-20220210143022089.png)]

给定 $\pi$ ,初始状态 $y_1$ 的取值分布就确定了。比如中文分词问题采用{B,M,E,N}标注集时， $y_1$ 所有可能的取值及对应概率如下：
$p(y_1=B)=0.7$
$p(y_1=M)=0$
$p(y_1=E)=0$
$p(y_1=S)=0.3$

那么此时隐马尔可夫模型的初始状态概率向量为 $\pi=[0.7,0,0,0.3]$ 。注意标签M和E的概率为0，因为句子第一个字符不可能称为单词的中部或尾部。另外， $p(y_1=B)>p(y_1=S)$ ，也说明句子第一个词是单字的可能性要小一些。

3、状态转移概率矩阵

$y_t$ 确定之后，如何转移到 $y_t+1$ 呢？根据马尔可夫假设， $t + 1$ 时的状态仅仅取决于 $t$ 时的状态。既然一共有 $N$ 种状态，那么从状态 $s_i$ 到状态 $s_j$ 的概率就构成了一个 $N\times N$ 的方阵，称为状态转移概率矩阵A：
$A=[p(y_{t+1}=s_j|y_t=s_i)]_{N\times N}$
其中下注i、j分别表示状态的第i、j中取值，比如我们约定1表示标注集中的B，依序类推。

状态转移概率矩阵的作用范围添加到示意图上，得到图4-9.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gyi00oEB-1645000219498)(image/image-20220211152401858.png)]

状态转移概率的存在有其实际意义，在中文分词中，标签B的后面不可能是S，于是只需要赋予 $p(y_{t+1}=S|y_t=B)=0$ 就可以模拟这种禁止转移的需求。此外，汉语中的长词相对较少，于是隐马尔可夫模型可以通过较小的 $p(y_{t+1}=M|y_t=M)$ 来模拟该语言现象。同样，词性标注中的“形容词 $\longrightarrow$ 名词”“副词 $\longrightarrow$ 动词”也可以通过状态转移概率来模拟。值得一提的是，这些概率分布的参数都不需要程序员手动赋予，而是通过语料库上的统计自动学习。

4、发射概率矩阵

有了状态 $y_t$ 之后，如何确定观测 $x_t$ 的概率分布呢？根据隐马尔可夫假设②，当前观测 $x_t$ 仅仅取决于当前状态 $y_t$ 。也就是说，给定每种y，x都是一个独立的离散型随机变量，其参数对应一个向量。假设观测x一共有M种可能的取值，即 $x∈{o_1,···,o_M}$ ，则x的概率分布参数向量维度为M。由于y一共有N种，所以这些参数向量构成了 $N\times M$ 的矩阵，称为发射概率矩阵B。
$B=[p(x_t=o_i|y_t=s_j)]_{N\times M}$
其中，第i行j列的元素下标i和j分别代表观测和状态的第i种和第j中取值，比如我们约定i=1表示字符集中的“阿”。此时 $p(x_1=阿|y_1=B)$ 对应矩阵中左上角第一个元素。如果字符集大小为1000的话，则B就是一个 $4\times1000$ 的矩阵。