隐马尔可夫模型(二)

最新推荐文章于 2024-07-01 22:18:01 发布

「已注销」

最新推荐文章于 2024-07-01 22:18:01 发布

阅读量259

点赞数

分类专栏：统计机器学习

本文链接：https://blog.csdn.net/xu_ampl/article/details/95021673

版权

统计机器学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

马尔可夫模型的学习，根据训练数据是包括观测序列和对应的状态序列还是只有观测序列，可以分别由监督学习和非监督学习实现。本部分首先介绍监督学习，后介绍非监督学习Baum-Welch算法

监督学习方法

假设已给训练数据包含 $s$ 个长度相同的观测序列和对应的状态序列 $\left\{\left(O_{1}, I_{1}\right),\left(O_{2}, I_{2}\right), \cdots,\left(O_{s}, I_{s}\right)\right\}$ 那么可以用极大似然估计法来估计隐马尔可夫模型的参数。具体方法如下：

转移概率 $a_{ij}$ 的估计
设样本中时刻 $t$ 处于状态 $i$ 转移到时刻 $t + 1$ 状态的频数为 $A_{ij}$ ,那么状态转移概率 $a_{ij}$ 的估计是 $\hat{a}_{i j}=\frac{A_{ij}}{\sum_{j=1}^{N} A_{i j}}, \quad i=1,2, \cdots, N ; j=1,2, \cdots, N$
观测概率 $b_{j}(k)$ 的估计
设样本中状态为 $j$ 并观测为 $k$ 的频数是 $B_{jk}$ ,那么状态为 $j$ 观测为 $k$ 的概率 $b_{j}(k)$ 的估计是 $\hat{b}_{j}(k)=\frac{B_{j k}}{\sum_{k=1}^{M} B_{j k}}, \quad j=1,2, \cdots, N ; k=1,2, \cdots, M \qquad(1)$
初始状态概率 $\pi_{i}$ 的估计 $\hat{\pi}_{i}$ 为 $S$ 个样本中初始状态为 $q_i$ 的频率
由于监督学习需要使用训练数据，而人工标注训练数据的代价往往会很高，有时会利用非监督学习方法。

aum-Welch算法
假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\left\{O_{1}, O_{2}, \cdots, O_{s}\right\}$ 而没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda=(A, B, \pi)$ 的参数，我们将观测序列数据看作观测书记 $O$ ，状态序列数据看作不可观测的隐数据 $I$ ，那么隐马尔可夫模型事实上是一个含有隐变量的概率模型 $\lambda)=\sum_{I} P(O | I;\lambda) P(I ; \lambda)\qquad(2)$
其参数学习可有由 $\text{EM}$ 算法实现

确定完全数据的对数似然函数
所有观测数据写成 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ ，所有隐数据写成 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right)$ ，完全数据是 $I)=\left(o_{1}, o_{2}, \cdots, o_{T}, i_{1}, i_{2}, \cdots, i_{T}\right)$ ，完全数据的对数似然函数是 $\log P(O, I ; \lambda)$
$\text{EM}$ 算法中的 $\text{E}$ 步：求 $Q$ 函数 $Q(\lambda, \overline{\lambda})$
按照 $Q$ 函数的定义 $Q(\lambda, \overline{\lambda})=E_{t}[\log P(O, I ;\lambda) | O; \overline{\lambda}]$
略去对 $\lambda$ 而言的常数因子 $\overline{\lambda})$ ,得 $Q(\lambda, \overline{\lambda})=\sum_{I} \log P(O, I ; \lambda) P(O, I ; \overline{\lambda}) \qquad(3)$ 其中 $\overline{\lambda}$ 是隐马尔可夫模型参数的当前估计值, $\lambda$ 是要极大化的隐马尔可夫模型参数 $\lambda)=P(O | I ;\lambda) P(I ; \lambda)\\=\pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i_{1} i_{2}} b_{i_{2}}\left(o_{2}\right)\cdots a_{i_{T-1} i_{T}} b_{i_{T}}\left(o_{T}\right)$ 于是函数 $Q(\lambda, \overline{\lambda})$ 可以写成： $Q(\lambda, \overline{\lambda})=\sum_{I} \log \pi_{i_{1}} P(O, I ; \overline{\lambda})\\+\sum_{I}\left(\sum_{t=1}^{T-1} \log a_{i_{t}i_{t+1}}\right) P(O, I ; \overline{\lambda})+\sum_{I}\left(\sum_{t=1}^{T} \log b_{i_{t}}\left(o_{t}\right)\right) P(O, I ; \overline{\lambda})\qquad(4)$
式中求和都是对所有训练数据的序列总长度 $T$ 进行的
$\text{EM}$ 算法中的 $\text{M}$ 步:极大化 $Q$ 函数 $Q(\lambda, \overline{\lambda})$ 求模型参数 $\pi$
由于要极大化的参数在上式 $(4)$ 中单独地出现在 $3$ 个项中，所以只需对各项分别极大化 $(1)$ 上式 $(4)$ 第一项可以写成 $\sum_{I} \log \pi_{i_{0}} P(O, I ; \overline{\lambda})=\sum_{i=1}^{N} \log \pi_{i} P\left(O, i_{1}=i ; \overline{\lambda}\right)$ 注意到 $\pi_{i}$ 满足约束条件 $\sum_{i=1}^{N} \pi_{i}=1$ ，利用拉格朗日乘子法，写出拉格朗日函数： $\sum_{i=1}^{N} \log \pi_{i} P\left(O, i_{1}=i ; \overline{\lambda}\right)+\gamma\left(\sum_{i=1}^{N} \pi_{i}-1\right)$ 对其求偏导数并令结果为0 $\frac{\partial}{\partial \pi_{i}}\left[\sum_{i=1}^{N} \log \pi_{i} P\left(O, i_{1}=i ;\overline{\lambda}\right)+\gamma\left(\sum_{i=1}^{N} \pi_{i}-1\right)\right]=0\qquad(5)$ 得 $P\left(O, i_{1}=i ; \overline{\lambda}\right)+\gamma \pi_{i}=0$ 对 $i$ 求和得到 $\gamma$ $\gamma=-P(O ; \overline{\lambda})$ 代入上式得 $\pi_{i}=\frac{P\left(O, i_{1}=i ;\overline{\lambda}\right)}{P(O ; \overline{\lambda})} \qquad(6)$
$(2)$ 式 $(4)$ 第二项可以写成 $\sum_{I}\left(\sum_{t=1}^{T-1} \log a_{i_{t}, i_{t+1}}\right) P(O, I ; \overline{\lambda})=\sum_{i=1}^{N} \sum_{j=1}^{N} \sum_{i=1}^{N-1} \log a_{i j} P\left(O, i_{t}=i, i_{t+1}=j ; \overline{\lambda}\right)4$ 类似第一项，应用具体约束条件 $\sum_{j=1}^{N} a_{i j}=1$ 的拉格朗日乘子法可以求出 $a_{i j}=\frac{\sum_{i=1}^{T-1} P\left(O, i_{t}=i, i_{t+1}=j ; \overline{\lambda}\right)}{\sum_{i=1}^{T-1} P\left(O, i_{t}=i ; \overline{\lambda}\right)}$ $(3)$ 式 $(4)$ 第三项为 $\sum_{I}\left(\sum_{t=1}^{T} \log b_{i_{t}}\left(o_{t}\right)\right) P(O, I ; \overline{\lambda})=\sum_{j=1}^{N} \sum_{t=1}^{T} \log b_{j}\left(o_{t}\right) P\left(O, i_{t}=j ;\overline{\lambda}\right) \qquad(7)$ 同样用拉格朗日乘子法，约束条件是 $\sum_{k=1}^{M} b_{j}(k)=1$ ，注意只有在 $o_{t}=v_{k}$ 时 $b_{j}\left(o_{t}\right)$ 对 $b_{j}(k)$ 的偏导数才不为 $0$ ，以 $I\left(o_{t}=v_{k}\right)$ 表示，求得 $b_{j}(k)=\frac{\sum_{i=1}^{T} P(O, i_{t}=j ; \overline{\lambda}) I\left(o_{t}=v_{k}\right)}{\sum_{i=1}^{T} P\left(O, i_{t}=j ;\overline{\lambda}\right)} \qquad(8)$
Baum-Welch模型参数估计公式
将式 $(6) - (8)$ 中的各概率分别用 $\gamma_{t}(i), \quad \xi_{i}(i, j)$ ，则可将相应的公式写成： $a_{i j}=\frac{\sum_{i=1}^{T-1} \xi_{i}(i, j)}{\sum_{i=1}^{T-1} \gamma_{t}(i)} \qquad(9)$ $b_{j}(k)=\frac{\sum_{t=1, o_{k}=y_{k}}^{T} \gamma_{t}(j)}{\sum_{i=1}^{T} \gamma_{t}(j)} \qquad(10)$ $\pi_{i}=\gamma_{1}(i) \qquad(11)$ 式 $(9) - (11)$ 就是Baum-Welch算法，它是 $\text{EM}$ 算法在隐马尔可夫模型学习中的具体实现。
预测算法

近似算法
近似算法，在每个时刻 $t$ 选择在该时刻最有可能出现的状态 $i^*_t$ ,从而得到一个状态序列 $I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*}\right)$ ，将它作为预测的结果。
给定隐马尔可夫模型 $\lambda$ 和观测序列 $O$ ，在时刻 $t$ 处于状态 $q_i$ 的概率 $\gamma_{t}(i)$ 是 $\gamma_{t}(i)=\frac{\alpha_{t}(i) \beta_{t}(i)}{P(O ; \lambda)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{i=1}^{N} \alpha_{t}(j) \beta_{t}(j)}$
在每一时刻 $t$ 最有可能的状态 $i^*_t$ 是 $i_{t}^{*}=\arg \max _{1 \leqslant i \leqslant N}\left[\gamma_{t}(i)\right], \quad t=1,2, \cdots, T$ , 从而得到状态序列 $I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*}\right)$
近似算法的优点是计算简单，其缺点是不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能有实际不发生的部分。

维比特算法
维比特算法实际是用动态规划解隐马尔可夫模型预测问题，即用动态规划求概率最大路径。这时一条路径对应着一个状态序列。
根据动态规划原理，最优路径具有这样的特性：如果最优路径在时刻 $t$ ，通过结点 $i^*_t$ ，那么这一路径从结点 $i^*_t$ 到终点 $i^*_T$ 的部分路径，对于从结点 $i^*_t$ 到终点 $i^*_T$ 的所有可能的部分路径来说，必须是最优的。
假设不是这样，那么从 $i^*_t$ 到 $i^*_T$ 就有另一条更好的部分路径存在，如果把它和从 $i^*_1$ 到 $i^*_t$ 的部分路径连接起来，就会形成一条比原来的路径更优的路径，这是矛盾的。依据这一原理，我们只需从时刻 $t = 1$ 开始，递推地计算在时刻 $t$ 状态为 $i$ 的各条部分路径的最大概率，直至得到时刻 $t = T$ 状态为 $i$ 的各条路径的最大概率。时刻 $t = T$ 的最大概率即为最优路径的概率 $P^*$ ,最优路径的终结点 $i^*_T$ 也同时得到。之后，为了找出最优路径的各个结点，从终结点 $i^*_T$ 开始，由后向前逐步求得结点 $i_{T-1}^{*}, \cdots, \dot,i^*_{1}$ ,得到最优路径 $I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*}\right)$ 。
首先导入两个变量 $\delta$ 和 $\psi$ 。定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $\left(i_{1}, i_{2}, \cdots, i_{t}\right)$ 中概率最大值为 $\delta_{t}(i)=\max _{i_{1}, i_{2}, \cdots, i_{t-1}} P\left(i_{t}=i, i_{t-1}, \cdots, i_{1}, o_{t}, \cdots, o_{1} ; \lambda\right), \quad i=1,2, \cdots, N$ 由定义可得变量 $\delta$ 的递推公式： $\delta_{t+1}(i)=\max _{i_{1}, i_{2}, \cdots, i_{t}} P\left(i_{t+1}=i, i_{t}, \cdots, i_{1}, o_{t+1}, \cdots, o_{1} ; \lambda\right)\\=\max _{1 \leqslant j \leqslant N}\left[\delta_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right), \quad i=1,2, \cdots, N ; t=1,2, \cdots, T-1$ 定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $\left(i_{1}, i_{2}, \cdots, i_{t-1}, i\right)$ 中概率最大的路径的第 $t - 1$ 个结点为 $\psi_{t}(i)=\arg \max _{1 \leqslant j \leqslant N}\left[\delta_{t-1}(j) a_{j i}\right], \quad i=1,2, \cdots, N$ 维比特算法
输入：模型 $\lambda=(A, B, \pi)$ 和观测 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$
输出：最优路径 $I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*}\right)$
$(1)$ 初始化 ${\delta_{1}(i)=\pi_{i} b_{i}\left(o_{1}\right), \quad i=1,2, \cdots, N}$ ${\psi_{1}(i)=0, \quad i=1,2, \cdots, N}$
$(2)$ 递推，对 $\cdots, T$
$\delta_{t}(i)=\max _{1 \leqslant j \leqslant N}\left[\delta_{t-1}(j) a_{j i}\right] b_{i}\left(o_{t}\right), \quad i=1,2, \cdots, N$ $\psi_{t}(i)=\arg \max _{1 \in j \leq N}\left[\delta_{t-1}(j) a_{j i}\right], \quad i=1,2, \cdots, N$ $(3)$ 终止 ${P^{*}=\max _{1 \leqslant i \leqslant N} \delta_{T}(i)} \\{i_{T}^{*}=\arg \max _{1 \leqslant i \leqslant N}\left[\delta_{T}(i)\right]}$ $(4)$ 最优路径回溯。对 $\cdots, 1$ $i_{t}^{*}=\psi_{t+1}\left(i_{t+1}^{*}\right)$ 求得最优路径 $I^{*}=\left(i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*}\right)$