隐马尔科夫模型HMM-过程了解

最新推荐文章于 2021-02-20 19:16:11 发布

于建民

最新推荐文章于 2021-02-20 19:16:11 发布

阅读量1.9k

点赞数

分类专栏：技术博客文章标签： HMM 隐马尔科夫模型机器学习模式识别 EM算法

本文链接：https://blog.csdn.net/yujianmin1990/article/details/48175177

版权

技术博客专栏收录该内容

79 篇文章 29 订阅

订阅专栏

　　HMM模型是个经典模型，处理的是序列的判决问题。本文大体讲解一下HMM的过程，而对其原理不作深入探究。

一阶马尔科夫模型

　　判断一个状态 $v_i$ 到另一个状态 $v_j$ 的转变。
　　比如今天的天气状态是“晴天”，那明天的天气状态是？，我们推测极大的可能也是“晴天”。这就是一个简单的一阶马尔科夫模型的应用。
　　一阶马尔科夫假设：每个状态只依赖于前一个状态。（不是依赖于其前几个状态）
　　前后关系用时间 $t$ 和 $t+1$ 表示，则前后状态的转移概率为： $P(v_j(t+1)|v_i(t))=a_{ij}$ 。
　　表示在当前时刻 $t$ 时，状态 $v_i$ 向下一时刻 $t+1$ 状态 $v_j$ 的转移概率。
　　

一阶马尔科夫图示(w就是s)
　　

一阶隐马尔科夫模型

　　含有隐藏状态 $s(t)$ ，目标仍然是判断可视状态 $v(t)$ 的转变。
　　我们若是只能观测到某一状态，但是可观测状态是由隐含的某一状态决定的，那么就需要隐马尔科夫模型出马了。
　　独立性假设：可视状态只取决于当前隐藏状态。
　　 $P(v_k(t)|s_j(t))=b_{jk}$
　　齐次马尔科夫假设：每个状态只依赖于前一个状态。
　　 $P(v_j(t+1)|v_i(t))=a_{ij}$
　　归一化约束： $\sum_{j}a_{ij}=1$ 和 $\sum_{k}b_{kj}=1$
　　

一阶隐马尔科夫的图示(w就是s)
　　

　　下面解决三个关键问题：
　　 估值：计算可视序列

VT=v1,v2,v3,...,vn $V^T={v_1, v_2, v_3,..., v_n}$ 出现的概率。根据转移概率

aij $a_{ij}$ 和

bjk $b_{jk}$ 。
　　 解码：根据可视序列

VT=v1,v2,v3,...,vn $V^T={v_1, v_2, v_3,..., v_n}$ 及转移概率

aij $a_{ij}$ 和

bjk $b_{jk}$ ，计算最可能出现的隐状态序列

ST=s1,s2,s3,...,sn $S^T = { s_1,s_2, s_3, ... , s_n }$ 。
　　 学习：由一组样本序列确定状态转移概率

aij $a_{ij}$ 和

bjk $b_{jk}$ 及隐状态的先验概率

πi $\pi_i$ 。

HMM估值

　　已知HMM模型（ $a_{ij}$ 和 $b_{jk}$ ），如何求解产生可视序列 $V^T$ 的概率。
　　可视序列的产生概率如下：
　　 $P(V^T)=\sum_{r=1}^{r_{max}}P(V^T|S_{r}^T)P(S_{r}^T)$
　　其中 $r_{max}$ 为 $c$ 个隐状态时的可能隐序列种数。
　　因为隐序列的当前状态仅仅取决于前一状态，故：
　　 $P(S^T)=\prod_{t=1}^TP(s_{t}|s_{t-1})$
　　因为当前可视状态仅仅由当前隐状态决定，故：
　　 $P(V^T|S^T)=P(v_1|S^T)P(v_2|S^T)*...*P(v_T|S^T)$ 可视状态间互不影响。
　　 $P(V^T|S^T)=P(v_1|s_1)P(v_2|s_2)*...*P(v_T|s_{T})= \prod_{t=1}^TP(v_t|s_t)$
　　综上所述：
　　 $P(V^T)=\sum_{r=1}^{r_{max}} \prod_{t=1}^TP(v_t|s_t) \prod_{t=1}^TP(s_{t}|s_{t-1})$
　　 $P(V^T)=\sum_{r=1}^{r_{max}} \prod_{t=1}^TP(v_t|s_t) P(s_{t}|s_{t-1})$
　　上面这个式子计算起来实在太过复杂~现在介绍一种简单计算方法，递归地计算 $P(V^T)$ ，累积前面的，计算当次的，再累积前面的，计算当次的，直到整个序列都计算完毕。
　　设 $\alpha_{i}(t)$ 表示HMM在 $t$ 时刻，位于隐状态 $s_i$ ，并且已经产生了可见序列 $V^T$ 的前 $t$ 个符号的概率。
　　 $\alpha_{i}=\left\{\begin{matrix} 0 & t=0且j \neq 初始状态 \\ 1 & t=0且j = 初始状态 \\ b_{jk}v(t) \sum_{i} \alpha_{i}(t-1)a_{ij} & 其他 \end{matrix}\right.$
　　HMM前向估计的递归方法示意图(这里的 $w$ 是上面的 $s$ ）。
　　

　　 HMM前向算法过程
　　1.

Initialize $Initialize$

t=0,aij,bjk $t=0, a_{ij}, b_{jk}$ ，可见序列

VT $V^T$ ，

αj(0)=1 $\alpha_{j}(0)=1$
　　2.

for $for$

t=t+1 $t=t+1$
　　3.

αj(t)=bjkv(t)∑ci=1αi(t−1)aij $\alpha_{j}(t) = b_{jk}v(t) \sum_{i=1}^c \alpha_{i}(t-1)a_{ij}$
　　4.

until $until$

t=T $t=T$
　　5.

returnP(VT) $return P(V^T)$
　　 HMM后向算法过程
　　1.

Initialize $Initialize$

t=T,aij,bjk $t=T, a_{ij}, b_{jk}$ ，可见序列

VT $V^T$ ，

βj(T) $\beta_{j}(T)$
　　2.

for $for$

t=t−1 $t=t-1$
　　3.

βi(t)=bjkv(t+1)∑cj=1βj(t+1)aij $\beta_{i}(t) = b_{jk}v(t+1) \sum_{j=1}^c \beta_{j}(t+1)a_{ij}$
　　4.

until $until$

t=1 $t=1$
　　5.

returnP(VT) $return P(V^T)$
　　其中，定义

βi(t) $\beta_{i}(t)$ 为在

t $t$ 时刻位于状态

si $s_{i}$ ，并且将产生

t $t$ 时刻之后的目标序列（时间范围为从

t+1 $t+1$ 到

T $T$ ）的概率。
　　

βi(t)=⎧⎩⎨⎪⎪01bjkv(t+1)∑jβj(t+1)aijsi(t)≠s0且t=Tsi(t)=s0且t=T其他 $\beta_{i}(t)=\left\{\begin{matrix} 0 & s_{i}(t) \neq s_{0} 且 t=T\\ 1 & s_{i}(t) = s_{0} 且 t=T \\ b_{jk}v(t+1) \sum_{j} \beta_{j}(t+1)a_{ij} & 其他 \end{matrix}\right.$

HMM解码

　　已知一个观测序列 $V^T$ ，解码就是找到与其对应的最可能的隐状态序列 $S^T$ 。
　　一种简单的方法是遍历所有的可能的隐状态序列的概率，选择最大的作为解码结果。但是这很明显不现实，因为计算量实在过于巨大。
　　现提供一种简单思路，把每个时刻最可能的隐状态 $s(t)$ 找到。
　　HMM解码算法（Viterbi）
　　1. $Initialize$ $paht为空$ ， $t=0$
　　2. 　　 $for$ $t=t+1$
　　3. 　　　　 $j=1$
　　4. 　　　　 $for$ $j = j+1$
　　5. 　　　　　　 $\alpha_{j}(t)=b_{jk}v(t)\sum_{i=1}^c\alpha_{i}(t-1)a_{ij}$
　　6. 　　　　 $until$ $j=c$
　　7. 　　　　 $j' = \underset {j}{argmax} \alpha_{j}(t)$
　　8. 　　　　将隐状态 $s_{j'}$ 添加到 $path$ 中
　　9. 　　 $until$ $t=T$
　　10.　　 $return$ $path$
　　这种解码方法（维特比算法）的缺点是：不能够保证找到的路径就是合法的路径，即找到的路径有可能是不连贯的。因为是用局部最优解串联成的解。

HMM学习

　　学习模型的过程就是确定模型的参数，转移概率 $a_{ij}, b_{jk}$ 及隐状态的先验概率 $\pi_{i}$ 。
　　（1）对于有监督问题
　　 $\hat{a}_{ij}=\frac{隐状态s_i转到s_j的频次}{隐状态s_i的所有隐状态转移频次}$
　　 $\hat{b}_{ij}=\frac{隐状态s_j转到可视状态v_k的频次}{隐状态s_j的所有可视状态转移频次}$
　　 $\hat{\pi}_i = 样本中$ t=1 $时，可视状态对应的隐藏状态为s_i的频率$
　　（2）对于无监督问题
　　解决无监督的HMM训练问题，就是大名鼎鼎的Baum-Welch算法，也叫前向-后向算法。
　　该算法是“广义期望最大化算法”的一种具体实现，其核心思想是：通过递归方式更新权重，以得到能够更好地描述（解释）训练样本的模型参数。
　　定义从隐状态 $s_{i}(t-1)$ 到 $s_{j}(t)$ 的概率 $\gamma_{ij}(t)$ 如下：
　　

γij(t)=αi(t−1)aijbjkβj(t)P(VT|θ) $\gamma_{ij}(t) = \frac {\alpha_{i}(t-1)a_{ij}b_{jk}\beta_{j}(t)} {P(V^T|\theta)}$
　　其中，

P(VT|θ) $P(V^T|\theta)$ 是模型用任意的隐含路径产生序列

VT $V^T$ 的概率，

γij(t) $\gamma_{ij}(t)$ 则表示了在产生可序列

VT $V^T$ 的条件下，从隐状态

si(t−1) $s_i(t-1)$ 到

sj(t) $s_j(t)$ 的概率。
　　

aij $a_{ij}$ 的估计值

aij^ $\hat{a_{ij}}$ 如下,

K $K$ 表示可转移的状态数量：
　　

a^ij=∑Tt=1γij(t)∑Tt=1∑Kk=1γik(t) $\hat{a}_{ij}=\frac{\sum_{t=1}^T \gamma_{ij}(t)}{\sum_{t=1}^T\sum_{k=1}^K \gamma_{ik}(t)}$
　　上式中，分子表示了

si $s_i$ 到

sj $s_j$ 的期望；分母表示了

si $s_i$ 转移的总期望。
　　

bjk $b_{jk}$ 的估计值

bjk^ $\hat{b_{jk}}$ 如下：
　　

b^jk=∑Tt=1∑v(t)=vkγik(t)∑Tt=1∑γik(t) $\hat{b}_{jk}=\frac{\sum_{t=1}^T\sum_{v(t)=v_k} \gamma_{ik}(t)}{\sum_{t=1}^T \sum \gamma_{ik}(t)}$
　　上式中，分子表示了隐状态

sj $s_j$ 对应的特定的可视状态

vk $v_k$ 对应的频次；分母表示了隐状态

sj $s_j$ 对应的所有的可视状态的频次。
　　？初始状态概率怎么确定的？
　　 前向-后向算法过程
　　1.

Initial $Initial$

aij,bjk $a_{ij}, b_{jk}$ 训练序列

VT $V^T$ ，收敛判据

θ $\theta$ ，

z=0 $z=0$
　　2. 　　

doz=z+1 $do z=z+1$
　　3. 　　　　

由a(z−1)和b(z−1)计算a^(z) $由a(z-1)和b(z-1)计算\hat{a}(z)$
　　4. 　　　　

由a(z−1)和b(z−1)计算b^(z) $由a(z-1)和b(z-1)计算\hat{b}(z)$
　　5. 　　　　

update: $update:$
　　6. 　　　　

aij(z)=a^ij(z−1) $a_{ij}(z) = \hat{a}_{ij}(z-1)$
　　7. 　　　　

bjk(z)=b^jk(z−1) $b_{jk}(z) = \hat{b}_{jk}(z-1)$
　　8. 　　

until $until$

maxi,j,k[aij(z)−aij(z−1),bjk(z)−bjk(z−1)]<θ $\underset{i,j,k}{max}[a_{ij}(z)-a_{ij}(z-1), b_{jk}(z)-b_{jk}(z-1)]<\theta$
　　9. 　　

return $return$

aij=aij(z); $a_{ij}=a_{ij}(z);$
　　　　　　　　

bjk=bjk(z) $b_{jk}=b_{jk}(z)$
　　

πi=当前参数下，初始隐状态s1=si的概率当前参数下，VT的概率=P(VT,s1=si|a,b)P(VT|a,b) $\pi_i = \frac{当前参数下，初始隐状态s_1=s_i的概率}{当前参数下，V^T的概率}=\frac{P(V^T, s_1=s_i| a,b)}{P(V^T|a,b)}$
　　

πi $\pi_i$ 是隐状态的先验概率估计，需要根据样本推测隐状态样本，然后计算。