隐马尔科夫模型（HMM）：模型参数估计

HadesZ~

已于 2022-02-15 15:53:42 修改

阅读量2.5k

点赞数

分类专栏：机器学习笔记 # 自然语言处理文章标签：概率论机器学习深度学习

于 2022-02-15 15:53:31 首次发布

本文链接：https://blog.csdn.net/xunyishuai5020/article/details/122863414

版权

自然语言处理同时被 2 个专栏收录

34 篇文章

订阅专栏

机器学习笔记

11 篇文章

订阅专栏

估计HMM模型参数时，根据是否已知观测序列对应状态序列，可分为由监督学习算法实现和由无监督学习算法实现。

1. 有监督学习估计HMM模型参数

假设给定训练数据包含 $n$ 个观测序列和对应的状态序列（不同观测序列长度可以相同，也可以不同） $\{(X_1, Y_1), (X_2, Y_2), \cdots, (X_n, Y_n)\}$ ，当已知状态和挂测序列时，可按模型参数定义直接统计得到每个样本上的模型参数值，然后在整个训练数据集的所有样本上求期望即可得到模型参数的估计。

1.1 转移概率 $a_{ij}$ 的估计

设第 $k$ 个样本中， $t$ 时刻处于状态 $s_i$ 、 $t + 1$ 时刻处于状态 $s_j$ 的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是：
$\hat{a}_{ij} = \frac{ \sum_{k=1}^{n} A_{ij} }{ \sum_{k=1}^{n} \sum_{j=1}^{N} A_{ij} }, \ \ \ \ \ \ i = 1, 2, \cdots, N; \ \ \ \ j = 1, 2, \cdots, N \tag{1.1}$

1.2 观测发生概率 $b_j(v_l)$ 的估计

设第 $k$ 个样本中，状态为 $s_j$ 且观测为 $o_l$ 的频数是 $B_{jl}$ ，那么观测发生概率 $b_j(v_l)$ 的估计是：
$\hat{b}_{j}(o_l) = \frac{ \sum_{k=1}^{n} B_{jl} }{ \sum_{k=1}^{n} \sum_{l=1}^{M} B_{jl} }, \ \ \ \ \ \ i = 1, 2, \cdots, N; \ \ \ \ l = 1, 2, \cdots, M \tag{1.2}$

1.3 初始状态概率 $\pi_i$ 的估计

初始状态概率 $\pi_i$ 的估计是 $n$ 个样本中，对应状态出现的频率：
$\hat{\pi}_i = \frac{1}{n}\sum_{k=1}^{n}\ if(y_1 = s_i, \ 1, \ 0), \ \ \ \ \ \ i = 1, 2, \cdots, N \tag{1.3}$

2. 无监督学习估计HMM模型参数

因为状态标注成本较高，所以仅给出观测序列数据、要求估计HMM模型参数的情况更为常见。假定训练数据只包含长度为 $T$ 的观测序列 $X$ 而没有对应的状态序列 $Y$ ，目标是估计隐马尔科夫模型的参数 $\lambda = (A, B, \pi)$ 。此情况下，状态序列 $Y$ 是不可观测的隐变量（hidden variable），HHM模型是一个含有隐变量的概率模型：

$\lambda)= \sum_{Y}P(X, Y | \lambda) = \sum_{Y}P(X | Y, \lambda)P(Y | \lambda) \tag{2.1}$ 根据EM算法，HHM模型参数的极大似然估计为¹：
$\hat{\lambda} = \argmax_{\lambda} Q(\lambda, \bar{\lambda}) \tag{2.2}$ $Q(\lambda, \bar{\lambda}) = \sum_{Y} P(X, Y | \bar{\lambda}) \cdot logP(X, Y | \lambda) \tag{2.3}$

按照 $Q$ 函数定义， $式 (2.3)$ 省去了对 $\lambda$ 而言的常数因子 $\lambda)$ 。

因为根据定义，HMM模型中
$\lambda) = \pi_{i_1}b_{i_1}(x_1) \cdot a_{i_1i_2}b_{i_2}(x_2) \cdots a_{i_{T-1}i_T}b_{i_T}(x_T)$

所以基于对数的运算法则，可将参数估计中模型每种参数涉及的子项拆解并归集到一起， $式 (2.3)$ 可改写为如下所示：
$Q(\lambda, \bar{\lambda}) = \sum_{Y} log(\pi_{i_1}) \cdot P(X, Y | \bar{\lambda}) + \sum_{Y} [\sum_{t=1}^{T-1} log(a_{i_ti_{t+1}})] \cdot P(X, Y | \bar{\lambda}) + \sum_{Y} [\sum_{t=1}^{T} log(b_{i_t}(x_t)) ] \cdot P(X, Y | \bar{\lambda})$
因此，求模型参数 $\lambda$ 的极大似然估计，可转换为单独求模型每一种参数的极大似然估计：
$\hat{\pi}_i = \argmax_{\pi_i} \sum_{Y} log(\pi_{i_1}) \cdot P(X, Y | \bar{\lambda}) \tag{2.4}$ $\hat{a}_{ij} = \argmax_{\pi_i} \sum_{Y} [\sum_{t=1}^{T-1} log(a_{i_ti_{t+1}})] \cdot P(X, Y | \bar{\lambda}) \tag{2.5}$ $\hat{b}_j(k) = \argmax_{\pi_i} \sum_{Y} [\sum_{t=1}^{T} log(b_{i_t}(x_t)) ] \cdot P(X, Y | \bar{\lambda}) \tag{2.6}$

2.1 初始状态概率 $\pi_i$ 的估计

$\hat{\pi}_i = \argmax_{\pi_i} \sum_{Y} log(\pi_{i_1}) \cdot P(X, Y | \bar{\lambda}) \tag{2.4}$ $\hat{\pi}_i = \argmax_{\pi_i} \sum_{i=1}^{N} log(\pi_{i}) \cdot P(X, y1=s_i | \bar{\lambda}) \tag{2.1.1}$

注意到 $\pi_i$ 满足约束条件 $\sum_{i=1}^{N} \pi_i = 1$ ，利用拉尔朗日乘子法写出 $式 (2.1.1)$ 的拉格朗日函数：

$\sum_{i=1}^{N} log(\pi_{i}) \cdot P(X, y1=s_i | \bar{\lambda}) + \gamma(\sum_{i=1}^{N} \pi_i - 1) \tag{2.1.2}$

对 $式 (2.1.2)$ 求关于 $\pi_i$ 的偏导数并令结果等于0，得：

$\frac{P(X, y1=s_i | \bar{\lambda})}{\pi_{i}} + \gamma = 0$ $y1=s_i | \bar{\lambda}) + \gamma \pi_{i} = 0 \tag{2.1.3}$

对 $式 (2.1.3)$ 中所有 $i$ 的可能情况求和，得到：

$\sum_{i=1}^{N} [P(X, y1=s_i | \bar{\lambda}) + \gamma \pi_{i}] = 0$ $\sum_{i=1}^{N} P(X, y1=s_i | \bar{\lambda}) + \gamma \sum_{i=1}^{N} \pi_{i} = 0 \tag{2.1.4}$ 因为
$\begin{cases} \sum_{i=1}^{N} P(X, y1=s_i | \bar{\lambda}) = P(X | \bar {\lambda}) \\ \\ \sum_{i=1}^{N} \pi_{i} = 1 \end{cases}$ 所以
$\gamma = -P(X | \bar {\lambda}) \tag{2.1.5}$

所以将其带入 $式 (2.1.3)$ 后，得到参数 $\pi_i$ 的极大似然估计：

$\hat{\pi}_i = \frac{P(X, y1=s_i | \bar{\lambda})}{P(X | \bar {\lambda})} \tag{2.1.6}$

2.2 转移概率 $a_{ij}$ 的估计

$\hat{a}_{ij} = \argmax_{\pi_i} \sum_{Y} [\sum_{t=1}^{T-1} log(a_{i_ti_{t+1}})] \cdot P(X, Y | \bar{\lambda}) \tag{2.5}$ $\hat{a}_{ij} = \argmax_{\pi_i} \sum_{i=1}^{N} \sum_{j=1}^{N} \sum_{t=1}^{T-1} log(a_{ij}) \cdot P(X, y_t=s_i, y_{t+1}=s_j | \bar{\lambda}) \tag{2.2.1}$
同理，应用具有约束条件 $\sum_{j=1}^{N} a_{ij} = 1$ 的拉格朗日乘子法，可以求出 $a_{ij}$ 的极大似然估计：

$\hat{a}_{ij} = \frac{ \sum_{t=1}^{T-1} P(X, y_t=s_i, y_{t+1}=s_j | \bar{\lambda}) }{ \sum_{t=1}^{T-1} P(X, y_t=s_i | \bar{\lambda}) } \tag{2.2.2}$

2.3 观测发生概率 $b_j(v_l)$ 的估计

$\hat{b}_j(k) = \argmax_{\pi_i} \sum_{Y} [\sum_{t=1}^{T} log(b_{i_t}(x_t)) ] \cdot P(X, Y | \bar{\lambda}) \tag{2.6}$ $\hat{b}_j(k) = \argmax_{\pi_i} \sum_{j=1}^{N} [\sum_{t=1}^{T} log(b_{j}(x_t)) ] \cdot P(X, y_t=s_j | \bar{\lambda}) \tag{2.3.1}$
同样应用拉格朗日乘子法，约束条件是 $\sum_{k=1}^{M} b_j(k) = 1$ 。注意，只有在 $x_t = o_k$ 时 $b_j(x_t)$ 对 $b_j(k)$ 的偏导数才不恒为0，求得 $b_j(k)$ 的极大似然估计：

$\hat{b}_j(k) = \frac{ \sum_{t=1}^{T} P(X \cap \bar{x}_t, x_t=o_k, y_t=s_j | \bar{\lambda}) }{ \sum_{t=1}^{T} \sum_{k=1}^{M} P(X \cap \bar{x}_t, x_t=o_k, y_t=s_j | \bar{\lambda}) }$

2.4 Baum-Welch算法实现

输入：随机过程的观测序列
输出：隐马尔科夫模型参数的极大似然估计。

（1）初始化
对于 $n = 0$ ，选取任意符合定义范围的 $a_{ij}^{(0)}, \ b_{j}(k)^{(0)}, \ \pi_i^{(0)}$ ，得到模型参数初值 $\lambda^{(0)} = (A^{(0)}, B^{(0)}, \pi^{(0)})$ ；

（2）迭代训练
$a_{ij}^{(n+1)} = \ \frac{ \sum_{t=1}^{T-1} \xi_t(i,j | X, \lambda^{(n)}) }{ \sum_{t=1}^{T-1} \gamma_t(i | X, \lambda^{(n)}) }$
$b_j(k)^{(n+1)} = \ \frac{ \sum_{t=1, \ x_t=o_k}^{T-1} \gamma_t(j | X, \lambda^{(n)}) }{ \sum_{t=1}^{T-1} \gamma_t(j | X, \lambda^{(n)}) }$
$\pi_i^{(n+1)} = \gamma_1(i | X, \lambda^{(n)})$
式中 $\xi_t(i,j)$ 和 $\gamma_t(i)$ 由HMM模型的前向算法和后向算法推出，具体推导过程请见作者文章：隐马尔科夫模型（HMM）：计算观测序列的出现概率中的第4小节。

（3）终止
当 $\lambda^{(n+1)}$ 几乎不再改变或改变已小于给定阈值（即已收敛）时，停止迭代训练。得到模型参数的极大似然估计：
$\begin{cases} \hat{a}_{ij} = a_{ij}^{(n+1)} \\ \\ \hat{b}_j(k) = b_j(k)^{(n+1)} \\ \\ \hat{\pi}_i = \pi_i^{(n+1)} \end{cases}$