隐马尔可夫模型（一）

最新推荐文章于 2024-07-15 17:08:02 发布

「已注销」

最新推荐文章于 2024-07-15 17:08:02 发布

阅读量337

点赞数

分类专栏：统计机器学习

本文链接：https://blog.csdn.net/xu_ampl/article/details/95006909

版权

统计机器学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

隐马尔可夫模型
隐马尔可夫模型 $\text{(hidden\;Markov\;model,HMM)}$ 是可用于标注问题的统计学习模型，描述由隐藏的马尔可夫随机生成观测序列的过程，属于生成模型。
一、隐马尔可夫模型的基本概念
定义1(隐马尔可夫模型) 隐马尔可夫模型是关于时序的概率模型，描述有一个隐藏的马尔可夫链随机生成不可预测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列(state sequence)；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。
隐马尔可夫模型是由初始概率分布、状态概率分布以及观测概率分布确定。
隐马尔可夫模型的形式定义如下：
设 $Q$ 是所有可能的状态的集合， $V$ 是所有可能的观测的集合 $Q=\left\{q_{1}, q_{2}, \cdots, q_{N}\right\}, \quad V=\left\{v_{1}, v_{2}, \cdots, v_{M}\right\}$ 其中， $N$ 是可能的状态数， $M$ 是可能的观测数
$I$ 是长度为 $T$ 的状态序列， $Q$ 是对应的观测序列 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right), \quad O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ $A$ 是状态转移概率矩阵： $A=\left[a_{i j}\right]_{N \times N}$ 其中， $a_{i j}=P\left(i_{t+1}=q_{j} | i_{t}=q_{i}\right), \quad i=1,2, \cdots, N ; j=1,2, \cdots, N$ 是在时刻 $t$ 处于状态 $q_i$ 的条件下在时刻 $t + 1$ 转移到状态 $q_j$ 的概率
$B$ 是观测概率矩阵： $B=\left[b_{j}(k)\right]_{N \times M}$ 其中， $b_{j}(k)=P\left(o_{t}=v_{k} | i_{t}=q_{j}\right), \quad k=1,2, \cdots, M ; j=1,2, \cdots, N$ 是在时刻 $t$ 处于状态 $q_j$ 的条件下生成观测 $v_k$ 的概率
$\pi$ 是初始状态概率向量： $\pi=\left(\pi_{i}\right)$ 其中
$\pi_{i}=P\left(i_{1}=q_{i}\right), \quad i=1,2, \cdots, N$
是时刻 $t = 1$ 处于状态 $q_i$ 的概率
隐马尔可夫模型是由初始状态概率向量 $\pi$ 、状态概率转移矩阵 $A$ 和观测概率矩阵 $B$ 决定， $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测序列。因此，隐马尔可夫模型 $\lambda$ 可以用三元符号表示，即 $\lambda=(A, B, \pi)$ $\pi$ 称为隐马尔可夫模型的三要素。
状态转移概率矩阵 $A$ 与初始状态概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成了不可观测的状态序列，观测概率矩阵 $B$ 确定了如何从状态生成观测，与状态序列确定了如何产生观测序列
从定义知，隐马尔可夫模型作了两个基本假设：
$(1)$ 齐次马尔可夫性假设，即假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关 $P\left(i_{t} | i_{t-1}, o_{t-1}, \cdots, i_{1}, o_{1}\right)=P\left(i_{t} | i_{t-1}\right), \quad t=1,2, \cdots, T$
$(2)$ 观测独立性假设，即任意时刻的观测只依赖于该时刻的马尔可夫链状态，与其他观测及状态无关。 $P\left(o_{t} | i_{T}, o_{T}, i_{T-1}, o_{T-1}, \cdots, i_{t+1}, o_{t+1}, i_{t-1}, i_{t-1}, \cdots, i_{1}, o_{1}\right)=P\left(o_{t} | i_{t}\right)$ 隐马尔可夫模型可以用于标注，这时状态对应着标记。标注问题是给定观测的序列预测其对应的标记序列，可以假设标注问题的数据是由隐马尔可夫模型生成的。这样可以利用隐马尔可夫模型的学习与预测算法进行标注。
隐马尔可夫模型的3个基本问题
$(1)$ 概率计算问题给定模型 $\lambda=(A, B, \pi)$ 和观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O;\lambda)$
$(2)$ 学习问题已知观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ ，估计模型 $\lambda=(A, B, \pi)$ 的参数，使得在该模型下观测序列概率 $P(O;\lambda)$ 最大，即用极大似然估计的方法估计参数。
$(3)$ 预测问题，也称为解码(decoding)问题. 已知模型 $\lambda=(A, B, \pi)$ 和观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ ，求对给定观测序列条件概率 $P(O;\lambda)$ 最大的状态序列 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right)$ ，即给定观测序列，求最有可能的对应的状态序列

二、概率计算方法

本部分介绍计算观测序列概率 $P(O;\lambda)$ 的直接计算法及前向和后向算法
给定模型 $\lambda=(A, B, \pi)$ 和观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P(O;\lambda)$ ，最直接的方法是按照概率公式直接计算。通过列举所有可能的长度为 $T$ 的状态序列 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right)$ ，求各个状态序列与观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ 的联合概率 $\lambda)$ ，然后对所有可能的状态序列求和，得到 $P(O;\lambda)$
状态序列 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right)$ 的概率是 $\lambda)=\pi_{i_{1}} a_{i_{1} i_{2}} a_{i_{2} i_{3}} \cdots a_{i_{r-1} i_{r}}$ 对固定的状态序列 $I=\left(i_{1}, i_{2}, \cdots, i_{T}\right)$ ，观测序列 $O=\left(o_{1}, o_{2}, \cdots, o_{T}\right)$ 的概率是 $\lambda)$ $\lambda)=b_{i_{1}}\left(o_{1}\right) b_{i_{2}}\left(o_{2}\right) \cdots b_{i_{r}}\left(o_{T}\right)$ $Q$ 和 $I$ 同时出现的联合概率为 $\lambda)=P(O | I ;\lambda) P(I ; \lambda)\\=\pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i_{1} i_{2}} b_{i_{2}}\left(o_{2}\right)\cdots a_{i_{T-1} i_{T}} b_{i_{T}}\left(o_{T}\right)$ 然后对所有可能的状态序列 $I$ 求和，得到观测序列 $O$ 的概率 $P(O;\lambda)$ ，即 $\lambda)=\sum_{I} P(O | I; \lambda) P(I ;\lambda)\\=\sum_{i_{1}, i_{2}, \cdots, t_{T}}\pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i_{1} i_{2}} b_{i_{2}}\left(o_{2}\right)\cdots a_{i_{T-1} i_{T}} b_{i_{T}}\left(o_{T}\right)$ 但，上式的计算量很大，是 $O\left(T N^{T}\right)$ 阶的，前向和后向算法是计算观测序列概率 $P(O;\lambda)$ 的更有效算法
前向算法
定义（前向概率） 给定隐马尔可夫模型 $\lambda$ , 定义时刻 $t$ 部分观测序列为 $o_{1}, o_{2}, \cdots, o_{t}$ 且状态为的概率为前向概率，记作 $\alpha_{t}(i)=P\left(o_{1}, o_{2}, \cdots, o_{t}, i_{t}=q_{i} ; \lambda\right)$
可以递推地求得前向概率 $\alpha_{t}(i)$ 以及观测序列概率 $P(O;\lambda)$
输入：隐马尔可夫模型 $\lambda$ ,观测序列 $O$
输出：观测序列概率 $P(O;\lambda)$
$(1)$ 初值 $\alpha_{1}(i)=\pi_{i} b_{i}\left(o_{1}\right), \quad i=1,2, \cdots, N$ $(2)$ 递推对 $\cdots, T-1$ $\alpha_{t+1}(i)=\left[\sum_{j=1}^{N} \alpha_{t}(j) a_{j i}\right] b_{i}\left(o_{t+1}\right), \quad i=1,2, \cdots, N$ $(3)$ 终止 $\lambda)=\sum_{i=1}^{N} \alpha_{T}(i)$ 步骤 $(1)$ 初始化前向概率，是初始时刻状态 $i_{1}=q_{i}$ 和观测 $o_1$ 的联合概率。
步骤 $(2)$ 是前向概率的递推公式, $\alpha_{t+1}(i)$ 表示的是在时刻 $t + 1$ 部分观测序列为 $o_{1}, o_{2}, \cdots, o_{t}, o_{t+1}$ 且在时刻 $t + 1$ 处于状态 $q_i$ 的前向概率, $\alpha_{t}(j)$ 表示的是在时刻 $t$ 观测序列为 $o_{1}, o_{2}, \cdots, o_{t}$ 且在时刻 $t$ 处于状态 $q_{j}$ 的前向概率。乘积 $\alpha_{i}(j) a_{j i}$ 就是时刻 $t$ 观测为 $o_{1}, o_{2}, \cdots, o_{t}$ 且在时刻 $t$ 处于状态 $q_{j}$ 而在时刻 $t + 1$ 到达状态 $q_{i}$ 的联合概率。对这个乘积在时刻 $t$ 的所有可能的 $N$ 个状态 $q_{j}$ 求和，得到时刻 $t$ 观测为 $o_{1}, o_{2}, \cdots, o_{t}$ 且在时刻 $t + 1$ 到达状态 $q_{i}$ 的联合概率，与观测概率 $b_{i}\left(o_{t+1}\right)$ 的乘积恰好是到时刻 $t + 1$ 观测到 $o_{1}, o_{2}, \cdots, o_{t}, o_{t+1}$ 并在时刻 $t + 1$ 处于状态 $q_{i}$ 的前向概率 $\alpha_{t+1}(i)$ 。
步骤 $(3)$ 给出 $P(O;\lambda)$ 的计算公式
因为 $\alpha_{T}(i)=P\left(o_{1}, o_{2}, \cdots, o_{T}, i_{T}=q_{i} ; \lambda\right)$ , 所以 $\lambda)=\sum_{i=1}^{N} \alpha_{T}(i)$

后向算法
定义(后向概率) 给定隐马尔可夫模型 $\lambda$ ,定义在时刻 $t$ 状态为 $q_i$ 的条件下，从 $t + 1$ 到 $T$ 的部分观测序列为 $o_{t+1}, o_{t+2}, \cdots, o_{T}$ 的概率为后向概率，记作 $\beta_{t}(i)=P\left(o_{t+1}, o_{t+2}, \cdots, o_{T} | i_{t}=q_{i}; \lambda\right)$ 可以用递推的方法求的后向概率 $\beta_{t}(i)$ 及观测序列概率 $\lambda)$
观测序列概率的后向算法
输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$
输出：观测序列概率 $\lambda)$
$(1)$ $\beta_{T}(i)=1, \quad i=1,2, \cdots, N$
$(2)$ 对 $\cdots, 1$ $\beta_{t}(i)=\sum_{j=1}^{N} a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j), \quad i=1,2, \cdots, N$
$(3)$ $\lambda)=\sum_{i=1}^{N} \pi_{i} b_{i}\left(o_{1}\right) \beta_{1}(i)$ 步骤 $(1)$ 初始化后向概率，对最终时刻的所有状态 $q_i$ 规定 $\beta_{T}(i)=1, \quad i=1,2, \cdots, N$
步骤 $(2)$ 是后向概率的递推公式，为了计算在时刻 $t$ 状态为 $q_i$ 条件下时刻 $t + 1$ 之后的观测序列为 $o_{t+1}, o_{t+2}, \cdots, o_{T}$ 的后向概率 $\beta_{t}(i)=P\left(o_{t+1}, o_{t+2}, \cdots, o_{T} | i_{t}=q_{i}; \lambda\right)$ ，只需考虑在时刻 $t + 1$ 所有可能的 $N$ 个状态 $q_j$ 的转移概率（ $a_{ij}$ ）,以及在此状态下的观测 $o_{t+1}$ 的观测概率（ $b_{j}\left(o_{t+1}\right)$ ），然后考虑状态 $q_j$ 之后的观测序列的后向概率（ $\beta_{t+1}(j)$ ）
步骤 $(3)$ 求 $\lambda)$ 的思路与步骤 $(2)$ 一致，只是初始概率 $\pi_{i}$ 代替转移概率

利用前向概率和后向概率的定义可以将观测序列概率 $\lambda)$ 统一写成 $\lambda)=\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{t}(i) a_{i j} b_{j}\left(o_{i+1}\right) \beta_{t+1}(j), \quad t=1,2, \cdots, T-1$
一些概率和期望值的计算
利用前向概率和后向概率，可以得到关于单个状态和两个状态概率的计算公式

给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态的概率 $q_i$ ，记 $\gamma_{t}(i)=P\left(i_{t}=q_{i} | O;\lambda\right)$ 可以通过前向后向概率计算。事实上 $\gamma_{t}(i)=P\left(i_{t}=q_{i} | O;\lambda\right)=\frac{P\left(i_{t}=q_{i}, O ; \lambda\right)}{P(O ; \lambda)}$ 由前向概率 $\alpha_{t}(i)$ 和后向概率 $\beta_{t}(i)$ 定义可知： $\alpha_{t}(i) \beta_{t}(i)=P\left(i_{t}=q_{i}, O ;\lambda\right)$ 于是得到： $\gamma_{t}(i)=\frac{\alpha_{\mathrm{t}}(i) \beta_{t}(i)}{P(O ; \lambda)}=\frac{\alpha_{t}(i) \beta_{t}(i)}{\sum_{j=1}^{N} \alpha_{t}(j) \beta_{t}(j)}$
给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态的概率 $q_i$ 且在时刻 $t + 1$ 处于状态 $q_j$ 的概率,记 $\xi_{t}(i, j)=P\left(i_{t}=q_{i}, i_{t+1}=q_{j} | O; \lambda\right)$ 可以通过后向概率计算： $\xi_{i}(i, j)=\frac{P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O ; \lambda\right)}{P(O ; \lambda)}=\frac{P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O ; \lambda\right)}{\sum_{i=1}^{N} \sum_{j=1}^{N} P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O ; \lambda\right)}$ 而 $P\left(i_{t}=q_{i}, i_{t+1}=q_{j}, O ; \lambda\right)=\alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j)$
所以 $\xi_{t}(i, j)=\frac{\alpha_{t}(i) a_{ij} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j)}{\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{t}(i) a_{ij} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j)}$
将 $\gamma_{t}(i)$ 和 $\xi_{i}(i, j)$ 对各个时刻 $t$ 求和，可以得到一些有用的期望值
$(1)$ 在观测 $O$ 下状态 $i$ 出现的期望值 $\sum_{i=1}^{T} \gamma_{t}(i)$
$(2)$ 在观测 $O$ 下状态 $i$ 转移的期望值 $\sum_{i=1}^{T-1} \gamma_{t}(i)$ $(3)$ 在观测 $O$ 下状态 $i$ 转移到状态 $j$ 的期望值 $\sum_{t=1}^{T-1} \xi_{t}(i, j)$