隐马尔科夫模型（HMM）：计算观测序列的出现概率

HadesZ~

已于 2022-02-12 10:19:01 修改

阅读量1.6k

点赞数 1

分类专栏： # 自然语言处理机器学习笔记文章标签：概率论算法机器学习

于 2022-02-11 11:58:33 首次发布

本文链接：https://blog.csdn.net/xunyishuai5020/article/details/122863395

版权

自然语言处理同时被 2 个专栏收录

34 篇文章

订阅专栏

机器学习笔记

11 篇文章

订阅专栏

引言

给定模型 $\lambda = (A, B, \pi)$ ，计算观测序列 $O(o_i, o_2, \cdots, o_T)$ 的出现概率 $P(O|\lambda)$ ，是隐马尔科夫模型（HMM）能解决的基本问题之一。

1. 直接计算法

容易想到，解决此问题的最直观方法是直接按概率公式计算 $P(O|\lambda)$ 。该方法首先穷举所有可能的状态序列组合 $(s_1, s_2, \cdots, s_T)$ ，然后求每种可能的状态序列与观测序列共同出现的联合概率 $\lambda)$ 。

对于长度为T的序列，所有可能的状态序列组合共有 $\prod_{1}^{T} C_{N}^{1} = N^T$ 种；然后根据观测独立性假设，每种状态序列产生给定观测序列的概率等于 $\prod_{t=1}^{T}P(o_t|s_t)$ ，所以 $\lambda)$ 计算的时间复杂度是 $O(TN^T)$ ，这在工程实践中难以被接受。

由此，提出了基于动态规划的前向算法（forward algorithm）和后向算法（backward algorithm）改进方案。

2. 前向算法

给定隐马尔科夫模型 $\lambda$ ，定义在 $t$ 时刻状态为 $q_i$ 且到 $t$ 时刻部分观测序列为 $(o_1, \cdots, o_t)$ 的概率为前向概率，记作：
$\alpha_t(q_i) = P(s_t = q_i, o_1, \cdots, o_t | \lambda) \tag{2.1}$
根据条件概率公式， $P(s_t, o_1, \cdots, o_t | \lambda) = P(s_t, o_1, \cdots, o_t, \lambda)/P(\lambda)$ ，且对于给定模型参数 $P(\lambda)$ 必然等于1、 $\lambda$ 是一个必然事件，因此不妨将 $式 1$ 公式简写为：

$\alpha_t(q_i) = P(s_t = q_i, o_1, \cdots, o_t) \tag{2.2}$
动态规划的核心是状态转移方程，我们可知前向算法的状态转移方程必然写成：前一时刻序列状态的概率乘以某一项后等于后一时刻序列状态的概率形式，我们不妨把它写成如下所示：

$P(s_t, o_1, \cdots, o_t) = Fun()P(s_{t-1}, o_1, \cdots, o_{t-1}) \tag{2.3}$

由 $式 2.3$ 可见，前后时刻间序列状态的概率仅相差一个变量 $s_t$ 和一个常数项 $o_t$ ，我们不妨借助边缘概率性质将 $t$ 时刻序列状态的概率 $P(s_t, o_1, \cdots, o_t)$ 改写成如下所示：

$P(s_t, o_1, \cdots, o_t) = \sum_{j=1}^{N} P(s_{t-1} = q_j, s_t, o_1, \cdots, o_{t-1}, o_t) \tag{2.4}$

根据概率论中的链式法则（条件概率公式的推广），可将联合概率依次拆解成多个条件概率的乘积，所以 $式 2.4$ 中改写后的联合概率可拆解成如下形式：
$P(s_{t-1} = q_j, s_t, o_1, \cdots, o_{t-1}, o_t) = P(s_{t-1} = q_j, o_1, \cdots, o_{t-1}) P(\ s_t\ | s_{t-1} = q_j, o_1, \cdots, o_{t-1}) P(\ o_t \ | s_{t-1} = q_j, s_t, o_1, \cdots, o_{t-1})$
根据隐马尔科夫模型（HMM）的齐次马尔科夫性假设，式中 $P(\ s_t\ | s_{t-1} = q_j, o_1, \cdots, o_{t-1}) = P(\ s_t\ | s_{t-1} = q_j)$ ；又根据隐马尔科夫模型（HMM）的观测独立性假设，式中 $P(\ o_t \ | s_{t-1} = q_j, s_t, o_1, \cdots, o_{t-1}) = P(\ o_t \ | s_t)$ 。所以 $式 2.4$ 可简化为：

$P(s_t, o_1, \cdots, o_t) = \sum_{j=1}^{N} P(s_{t-1} = q_j, o_1, \cdots, o_{t-1})P(\ s_t\ | s_{t-1} = q_j)P(\ o_t \ | s_t) \tag{2.5}$

带入模型参数后，前向概率表达式可表示为：

$\alpha_t(q_i) = \begin{bmatrix} \sum_{j=1}^{N} \alpha_{t-1}(q_j)a_{ji} \end{bmatrix} b_i(o_t) , \ \ \ \ \ t=2, 3, \cdots, T \tag{2.6}$

所以，给定隐马尔科夫模型 $\lambda$ ，观测序列的出现概率为：
$P(O|\lambda) = \sum_{i=1}^{N} \alpha_T(q_i), \ \ \ \ \ \ \alpha_1(q_i) = \pi_ib_i(o_1) \tag{2.7}$

3. 后向算法

给定隐马尔科夫模型 $\lambda$ ，定义在 $t$ 时刻状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 时刻的部分观测序列为 $(o_{t+1}, \cdots, o_T)$ 的概率为后向概率，记作：
$\beta_t(q_i) = P(o_{t+1}, \cdots, o_T | s_t = q_i, \lambda) \tag{3.1}$

与前向算法同理，后向算法的状态转移方程为：
$\beta_t(q_i) = P(o_{t+1}, \cdots, o_T | s_t = q_i) \tag{3.2}$ $P(o_{t+1}, \cdots, o_T | s_t = q_i) = Fun()P(o_{t+2}, \cdots, o_T | s_{t+1} = q_j) \tag{3.3}$ $P(o_{t+1}, \cdots, o_T | s_t = q_i) = \sum_{j=1}^{N} P(s_{t+1} = q_j, o_{t+1}, o_{t+2}, \cdots, o_T | s_t = q_i) \tag{3.4}$ $\begin{cases} P(s_{t+1}, o_{t+1}, o_{t+2}, \cdots, o_T | s_t) = P(o_{t+2}, \cdots, o_T | s_t, s_{t+1}, o_{t+1})P(o_{t+1} | s_t, s_{t+1})P(s_{t+1}| s_t) \\ P(o_{t+2}, \cdots, o_T | s_t, s_{t+1}, o_{t+1}) = P(o_{t+2}, \cdots, o_T | s_{t+1}) \\ P(o_{t+1} | s_t, s_{t+1}) = P(o_{t+1} | s_{t+1}) \end{cases} \tag{3.5}$ $\beta_t(q_i) = \sum_{j=1}^{N} P(o_{t+2}, \cdots, o_T | s_{t+1}=q_j)P(o_{t+1} | s_{t+1}=q_j)P(s_{t+1}=q_j| s_t=q_i) \tag{3.6}$
$\beta_t(q_i) = \sum_{j=1}^{N} \beta_{t+1}(q_j)b_j(o_{t+1})a_{ij} \tag{3.7}$
$P(O|\lambda) = \sum_{i=1}^{N} \pi_i b_i(o_1) \beta_1(q_i) , \ \ \ \ \ \ \beta_T(q_i) = 1 \tag{3.8}$

4. 序列中间时刻状态概率计算

由前向算法和后向算法，可以推出序列中间某一时刻处于状态 $q_i$ 的概率 $\gamma_t(q_i)$ ，和序列中间相邻的某两时刻分别处于状态 $q_i$ 、 $q_j$ 的概率 $\xi_t(q_i, q_j)$ ，这称作F/B算法（Forward / Backward Algorithm）。

4.1 序列中某一时刻所处状态的概率

将 $\gamma_t(q_i)$ 记作序列中某一时刻所处状态的概率，其表达式为：
$\gamma_t(q_i) = P(s_t = q_i | O, \lambda) \tag{4.1.1}$
$\gamma_t(q_i) = \frac{P(s_t = q_i, O, \lambda)}{P(O | \lambda)} \tag{4.1.2}$
$\gamma_t(q_i) = \frac{ P(o_{t+1}, \cdots, o_T | s_t = q_i, o_1, \cdots, o_t)P(s_t = q_i, o_1, \cdots, o_t) }{ \sum_{i=1}^{N} P(s_t = q_i, O) } \tag{4.1.3}$
$\because P(o_{t+1}, \cdots, o_T | s_t = q_i, o_1, \cdots, o_t) = P(o_{t+1}, \cdots, o_T | s_t = q_i) \tag{4.1.4}$
$\therefore \gamma_t(q_i) = \frac{ P(o_{t+1}, \cdots, o_T | s_t = q_i)P(s_t = q_i, o_1, \cdots, o_t) }{ \sum_{i=1}^{N} P(s_t = q_i, O) } \tag{4.1.5}$
$\gamma_t(q_i) = \frac{ P(o_{t+1}, \cdots, o_T | s_t = q_i)P(s_t = q_i, o_1, \cdots, o_t) }{ \sum_{i=1}^{N} P(o_{t+1}, \cdots, o_T | s_t = q_i)P(s_t = q_i, o_1, \cdots, o_t) } \tag{4.1.6}$
$\gamma_t(q_i) = \frac{ \alpha_t(q_i) \beta_t(q_i) }{ \sum_{i=1}^{N} \alpha_t(q_i) \beta_t(q_i) } \tag{4.1.7}$

4.2 序列中某两相邻时刻所处状态的概率

将 $\xi_t(q_i, q_j)$ 记作序列中间某两相邻时刻所处状态的概率，其表达式为：
$\xi_t(q_i, q_j) = P(s_t = q_i, s_{t+1}=q_j | O, \lambda) \tag{4.2.1}$
$\xi_t(q_i, q_j) = \frac{ P(s_t = q_i, s_{t+1}=q_j, O, \lambda) }{ P(O | \lambda) } \tag{4.2.2}$
$\xi_t(q_i, q_j) = \frac{ P(s_t = q_i, s_{t+1}=q_j, O) }{ \sum_{i=1}^{N} \sum_{j=1}^{N} P(s_t = q_i, s_{t+1}=q_j, O) } \tag{4.2.3}$
$\because\begin{cases} P(s_t = q_i, s_{t+1}=q_j, O) = P(s_t = q_i, o_1, \cdots, o_t)P(s_{t+1} = q_j|s_t = q_i)P(o_{t+1}|s_{t+1} = q_j) P(o_{t+2}, \cdots, o_T | s_{t+1} = q_j) \\ P(s_t = q_i, o_1, \cdots, o_t) = \alpha_t(q_i) \\ P(s_{t+1} = q_j|s_t = q_i) = a_{ij} \\ P(o_{t+1}|s_{t+1} = q_j) = b_j(o_{t+1}) \\ P(o_{t+2}, \cdots, o_T | s_{t+1} = q_j) = \beta_{t+1}(q_i) \end{cases} \tag{4.2.4}$
$\therefore \xi_t(q_i, q_j) = \frac{ \alpha_t(q_i)a_{ij}b_j(o_{t+1})\beta_{t+1}(q_i) }{ \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_t(q_i)a_{ij}b_j(o_{t+1})\beta_{t+1}(q_i) } \tag{4.2.5}$