隐马尔可夫模型学习笔记

最新推荐文章于 2022-09-13 20:39:48 发布

复方尿维氨滴眼液

最新推荐文章于 2022-09-13 20:39:48 发布

阅读量2.2k

点赞数

分类专栏：机器学习文章标签： HMM

本文链接：https://blog.csdn.net/zjsmdchen/article/details/51348507

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

定义

　　隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的序列称为观测序列。序列的每一个位置又可看做是一个时刻。
　　设Q是所有可能的状态的集合，V是所有可能的观测的集合。
　　

Q = {q 1, q 2, \dots, q ｎ}, V = {v 1, v 2, \dots, v ｍ}

$Q=\{q_1,q_2,\cdots,q_ｎ\},V=\{v_1,v_2,\cdots,v_ｍ\}$
　　其中，ｎ是可能的状态数，ｍ是可能的观测数。
　　

H $H$ 是长度为T的状态序列，

O $O$ 是对应的观测序列。

H = {h 1, h 2, \dots, h T}, O = {o 1, o 2, \dots, o T}

$H=\{h_1,h_2,\cdots,h_T\},O=\{o_1,o_2,\cdots,o_T\}$
　　A是状态转移矩阵：

A = [a i j] ｎ \times ｎ

$A=[a_{ij}]_{ｎ\times ｎ}$
　　其中，

a i j = P (i t + 1 = q j | i t = q i), i = 1, 2, \dots, ｎ; j = 1, 2, \dots, ｎ

$a_{ij}=P(i_{t+1}=q_j|i_t=q_i),i=1,2,\cdots,ｎ;j=1,2,\cdots,ｎ$
　　是在时刻t处于状态

qi $q_i$ 的条件下在时刻t+1转移到状态

qj $q_j$ 的概率。
　　B是观测概率矩阵：

B = [b j (k)] ｎ \times ｍ

$B=[b_j(k)]_{ｎ\times ｍ}$
　　其中，

b j (k) = P (o t = v k | i t = q j), k = 1, 2, \dots, ｍ; j = 1, 2, \dots, ｎ

$b_j(k)=P(o_t=v_k|i_t=q_j),k=1,2,\cdots,ｍ;j=1,2,\cdots,ｎ$
　　是在时刻t处于状态

qj $q_j$ 的条件下生成观测

vk $v_k$ 的概率。
　　

π $\pi$ 是初始状态概率向量：

π = (π i)

$\pi=(\pi_i)$
　　其中，

π i = P (i 1 = q i), i = 1, 2, \dots, ｎ

$\pi_i=P(i_1=q_i),i=1,2,\cdots,ｎ$
　　是时刻t=1处于状态

qi $q_i$ 的概率。

两个基本假设

齐次马尔可夫性假设：马尔可夫链在任意时刻t的状态只依赖于前一时刻的状态，与其他时刻的状态及观测无关，也与时刻t无关。
观测独立性假设：任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测、状态和时刻无关。

学习算法

一、监督学习算法

假设已给训练数据包含s个长度相同的观测序列和对应的状态序列 $\{(O_1,H_1),(O_2,H_2),\cdots, (O_s,H_s)\}$ ，那么可以用极大似然估计法来估计隐马尔可夫模型的参数。

1.转移概率 $a_{ij}$ 的估计

　　设样本中时刻t处于i时刻t+1转移到状态j的频数为 $A_{ij}$ ，那么状态转移概率 $a_{ij}$ 的估计是

a * i j = A i j \sum n j = 1 A i j, i = 1, 2, \dots, n; j = 1, 2, \dots, n

$a_{ij}^* = {{A_{ij}}\over{\sum_{j=1}^nA_{ij}}}, i=1,2,\cdots,n;j=1,2,\cdots,n$

2.观测概率 $b_j(k)$ 的估计

　　设样本中状态为j并观测为k的频数是 $B_{jk}$ ，那么状态为j观测为k的概率 $b_j(k)$ 的估计是

b j (k) * = B j k \sum m k = 1 B j k, j = 1, 2, \dots, n; k = 1, 2, \dots, m

$b_j(k)^*={{B_{jk}}\over {\sum_{k=1}^mB_{jk}}},j=1,2,\cdots,n;k=1,2,\cdots,m$

3.初始状态概率 $\pi_i$ 的估计 $\pi^*$ 为S个样本中初始状态为 $q_i$ 的频率

　　由于监督学习需要使用训练数据，而人工标注训练数据往往代价很高，又是就会利用非监督学习的方法。

2.Baum-Welch算法

　　假设给定训练数据只包含s个长度为T的观测序列 $\{O_1,O_2,\cdots,O_s\}$ ，而没有对应的状态序列，目标是学习隐马尔可夫模型 $\lambda =(A,B,\pi)$ 的参数。我们将观测序列数据看做观测数据O，状态序列数据看做不可观测的隐数据I，那么隐马尔可夫模型事实上是一个含有隐变量的概率模型
　

P (O | λ) = \sum H P (O | H, λ) P (H | λ)

$P(O|\lambda)=\sum_HP(O|H,\lambda)P(H|\lambda)$
它的参数学习可以由EM算法实现。

1.确定完全数据的对数似然函数

　　所有观测数据写成 $O_g=(o_{g1},o_{g2},\cdots,o_{gT})$ ，所有隐数据写成 $H_g=(h_{g1},h_{g2},\cdots,h_{gT})$ ，完全数据是 $(O_g,H_g)=((o_{g1},h_{g1}),(o_{g2},h_{g2})\cdots,(o_{gT},h_{gT}))$ 。不完全数据的对数似然函数是 $L(\lambda)=\sum_{g=1}^s\log P(O_g|\lambda)$ 。

2.EM算法的E步

　　求 $L(\lambda)$ 的下界 $Q(\lambda,\lambda^*)$

Q (λ, λ *) = \sum g = 1 s \sum H g P (H g | O g, λ *) log P (H g, O g | λ)

$Q(\lambda,\lambda^*)=\sum_{g=1}^s\sum_{H_g}P(H_g|O_g,\lambda^*)\log P(H_g,O_g|\lambda)$

P (O, I | λ) = π i 1 b i 1 (o 1) a i 1 i 2 b i 2 (o 2) \dots a i T - 1 i T b i t (o T)

$P(O,I|\lambda)=\pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2)\cdots a_{i_{T-1}i_T}b_{i_t}(o_T)$
于是函数

Q(λ,λ∗) $Q(\lambda,\lambda^*)$ 可以写成：

Q (λ, λ *) = \sum g = 1 s \sum H g P (H g | O g, λ *) log π i 1 + \sum g = 1 s \sum H g P (H g | O g, λ *) \sum t = 1 T - 1 log a i t i t + 1 + \sum g = 1 s \sum H g P (H g | O g, λ *) \sum t = 1 T log b i t (1)

$Q(\lambda,\lambda^*)=\sum_{g=1}^s\sum_{H_g}P(H_g|O_g,\lambda^*)\log \pi_{i_1}\tag1\\ +\sum_{g=1}^s\sum_{H_g}P(H_g|O_g,\lambda^*)\sum_{t=1}^{T-1}\log a_{i_ti_{t+1}}\\ +\sum_{g=1}^s\sum_{H_g}P(H_g|O_g,\lambda^*)\sum_{t=1}^T\log b_{i_t}$