时序模型：隐马尔科夫模型（HMM）

HadesZ~

已于 2022-02-13 11:40:11 修改

阅读量2.2k

点赞数

分类专栏： # 自然语言处理机器学习笔记文章标签：概率论算法

于 2022-02-07 17:04:25 首次发布

本文链接：https://blog.csdn.net/xunyishuai5020/article/details/122801286

版权

自然语言处理同时被 2 个专栏收录

34 篇文章 35 订阅

订阅专栏

机器学习笔记

11 篇文章 0 订阅

订阅专栏

1. 隐马尔科夫模型的定义

隐马尔科夫模型（hidden Markov model，HMM），描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态（state）生成一个观测（observation）从而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列，称作状态序列（state sequence），它是模型的标签（target）；每个状态生成一个观测而产生的观测的随机序列，称为观测序列（observation sequence），它是模型的特征（features）。序列的每一个位置又可以看作是一个时刻。

2. 隐马尔科夫模型成立的两个基本假设

自然语言处理任务场景中，随机序列（语言序列）的状态多是不可观测的离散型随机变量（如：单词语义、词性等），序列的观测也多是离散型变量（如：文本中的单词）；而在语音识别任务中，序列的观测可以是一段连续的单词的声音波形，此时可借助高斯混合模型（Guassian Mixture model，GMM）与隐马尔科夫模型（HMM）联用进行处理。

隐马尔科夫模型（HMM）的成立，默认随机序列满足两个前提假设：即齐次马尔科夫性假设和观测独立性假设。

设随机序列中，所有可能的状态的集合为 $Q$ 、可能状态的个数为 $N$ 、所有可能的观测的集合为 $V$ 、可能观测值的个数为 $M$ ，则它们的表达式可表示为如下所示：
$\{q_1, q_2, \cdots, q_N\}$ $\{v_1, v_2, \cdots, v_M\}$ 设 $S$ 是长度为T的状态序列， $O$ 是由 $S$ 产生的观测序列，它们的表达式如下所示：
$(s_1, s_2, \cdots, s_T)$ $(o_1, o_2, \cdots, o_T)$

2.1 齐次马尔科夫性假设

齐次马尔科夫性，假设隐藏的马尔科夫链在任意时刻 $t$ 的状态只依赖于它前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关：
$P(s_t | s_{t-1}, o_{t-1}, \cdots, s_1, o_1) = P(s_t | s_{t-1}), \ \ \ \ t=1, 2, \cdots, T$

2.2 观测独立性假设

观测独立性，假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测及状态无关：
$P(o_t | s_T, o_T, s_{T-1}, o_{T-1}, \cdots, s_{t+1}, o_{t+1}, \ s_t,\ s_{t-1}, o_{t-1}, \cdots, s_1, o_1) = P(o_t | s_t)$

3. 隐马尔科夫模型的表达式

隐马尔科夫模型 $\lambda$ 由初始状态概率向量 $\pi$ 、状态转移概率矩阵（transition probability matrix） $A$ 和 观测生成概率矩阵（emission probability matrix） $B$ 共同决定，其表达式如下所示：
$\lambda = (A, B, \pi)$ 模型中， $A$ 与 $\pi$ 确定了隐藏的马尔科夫链，决定如何生成不可观测的状态序列； $B$ 确定了如何从状态生成观测，与状态序列一起决定产生何种观测序列。如下图所示：
在这里插入图片描述

初始状态概率向量 $\pi$ 的表达式可表示为：
$\pi = [\pi_i]_{N \times 1} = [P(s_1=q_i)]_{N \times 1}$ $\pi = [P(s_1=q_1), P(s_1=q_2), \cdots, P(s_1=q_N)]^T$

状态转移概率矩阵 $A$ 的表达式可表示为：
$[a_{ij}]_{N \times N} = [P(s_{t+1} = q_j | s_t = q_i)]_{N \times N}, \ \ \ \ \ \ \ \ t=1, 2, \cdots, T-1$ $\begin{pmatrix} P(s_{t+1} = q_1 | s_t = q_1)& P(s_{t+1} = q_2 | s_t = q_1)& \cdots & P(s_{t+1} = q_N | s_t = q_1)\\ P(s_{t+1} = q_1 | s_t = q_2)& P(s_{t+1} = q_2 | s_t = q_2)& \cdots& P(s_{t+1} = q_N | s_t = q_2)\\ \vdots & \vdots& \ddots& \vdots\\ P(s_{t+1} = q_1 | s_t = q_N)& P(s_{t+1} = q_2 | s_t = q_N)& \cdots& P(s_{t+1} = q_N | s_t = q_N) \end{pmatrix}$

观测概率矩阵 $B$ 的表达式可表示为：
$[b_i(k)]_{N \times M} = [P(o_t = v_k|s_t = q_i)]_{N \times M}, \ \ \ \ \ \ \ \ \ t=1, 2, \cdots, T$ $\begin{pmatrix} P(o_t = v_1 | s_t = q_1)& P(o_t = v_2 | s_t = q_1)& \cdots & P(o_t = v_M | s_t = q_1)\\ P(o_t = v_1 | s_t = q_2)& P(o_t = v_2 | s_t = q_2)& \cdots& P(o_t = v_M | s_t = q_2)\\ \vdots & \vdots& \ddots& \vdots\\ P(o_t = v_1 | s_t = q_N)& P(o_t = v_2 | s_t = q_N)& \cdots& P(o_t = v_M | s_t = q_N) \end{pmatrix}$

4. 隐马尔科夫模型解决的三个基本问题

4.1 观测序列概率计算

此问题，给定模型 $\lambda = (A, B, \pi)$ ，求观测序列 $(o_1, o_2, \cdots, o_T)$ 出现的概率 $P(O|\lambda)$ 。
具体请详见作者文章：隐马尔科夫模型（HMM）：计算观测序列的出现概率

4.2 状态序列推论

此问题，给定模型 $\lambda = (A, B, \pi)$ 和观测序列 $(o_1, o_2, \cdots, o_T)$ ，求在此条件下出现概率最大的状态序列 $(s_1, s_2, \cdots, s_T)$ ；即，给定模型 $\lambda = (A, B, \pi)$ 和观测序列 $(o_1, o_2, \cdots, o_T)$ ，求令条件概率 $P (S ∣ O)$ 最大的状态序列 $(s_1, s_2, \cdots, s_T)$ 。
具体请详见作者文章：隐马尔科夫模型（HMM）：状态序列推论

4.3 模型参数估计

此问题，给定观测序列 $(o_1, o_2, \cdots, o_T)$ ，求令（给定）观测序列出现概率 $P(O|\lambda)$ 最大的模型参数 $\pi)$ 。
具体请详见作者文章：

HadesZ~

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
时序模型：隐马尔科夫模型（HMM）

隐马尔科夫模型的定义隐马尔科夫模型（hidden Markov model，HMM）描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测从而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列，称作状态序列（state sequence）；每个状态生成一个观测而产生的观测的随机序列，称为观测序列（observation sequence）。序列的每一个位置又可以看作是一个时刻。隐马尔科夫模型成立的两个基本假设隐马尔科夫模型解决的三个基本问题观测序列出现概率计算
复制链接

扫一扫