统计学习方法笔记（十四）隐马尔可夫模型（二）

最新推荐文章于 2022-09-13 20:39:48 发布

yeyustudy

最新推荐文章于 2022-09-13 20:39:48 发布

阅读量300

点赞数

分类专栏：统计学习方法笔记

本文链接：https://blog.csdn.net/yeyustudy/article/details/80408374

版权

统计学习方法笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

概率计算算法

一、直接计算法
此种算法想要直接通过概率公式进行计算，首先求出状态序列与观测序列的联合概率密度 $P(O,I|\lambda )$ ，之后对所有可能的状态序列进行求和，即可得到 $P(O|\lambda )$ ，即利用如下公式：
$P(I|\lambda ) = {\pi _{{i_1}}}{a_{{i_1}{i_2}}}{a_{{i_2}{i_3}}} \cdots {a_{{i_{T - 1}}{i_T}}}$
$P(O|I,\lambda ) = {b_{{i_1}}}({o_1}){b_{{i_2}}}({o_2}) \cdots {b_{{i_T}}}({o_T})$

P (O, I | λ) = P (O | I, λ) P (I | λ) = π i 1 b i 1 (o 1) a i 1 i 2 b i 2 (o 2) \dots a i T - 1 i T b i T (o T)

$\begin{array}{l} P(O,I|\lambda ) = P(O|I,\lambda )P(I|\lambda )\\ = {\pi _{{i_1}}}{b_{{i_1}}}({o_1}){a_{{i_1}{i_2}}}{b_{{i_2}}}({o_2}) \cdots {a_{{i_{T - 1}}{i_T}}}{b_{{i_T}}}({o_T}) \end{array}$
然而，此种算法计算量太大，不可实现。
二、前向算法
给定隐马尔可夫模型，定义到时刻t部分观测序列且状态为某个状态的概率为前向概率，记为：

αt(i)=P(o1,o2,⋯,ot,it=qi|λ) α t ( i ) = P ( o 1 , o 2 , ⋯ , o t , i t = q i | λ ) ${\alpha _t}(i) = P({o_1},{o_2}, \cdots ,{o_t},{i_t} = {q_i}|\lambda )$
前向算法：
输入：隐马尔可夫模型，观测序列
输出：观测序列概率
（1）初值：

α1(i)=πibi1(o1) α 1 ( i ) = π i b i 1 ( o 1 ) ${\alpha _1}(i) = {\pi _i}{b_{{i_1}}}({o_1})$
（2）递推：

αt+1(i)=[∑j=1Nαt(j)aji]bi(ot+1) α t + 1 ( i ) = [ ∑ j = 1 N α t ( j ) a j i ] b i ( o t + 1 ) ${\alpha _{t + 1}}(i) = \left[ {\sum\limits_{j = 1}^N {{\alpha _t}(j){a_{ji}}} } \right]{b_i}({o_{t + 1}})$
（3）终止：

P(O|λ)=∑i=1NαT(i) P ( O | λ ) = ∑ i = 1 N α T ( i ) $P(O|\lambda ) = \sum\limits_{i = 1}^N {{\alpha _T}(i)}$
三、后向算法
当模型确定且t时刻的状态确定时，从t+1到T的部分观测序列为

ot+1,ot+2,⋯,oT o t + 1 , o t + 2 , ⋯ , o T ${o_{t + 1}},{o_{t + 2}}, \cdots ,{o_T}$ 的概率为后向概率，为：

βt(t)=P(ot+1,ot+2,⋯,oT|it=qi,λ) β t ( t ) = P ( o t + 1 , o t + 2 , ⋯ , o T | i t = q i , λ ) ${\beta _t}(t) = P({o_{t + 1}},{o_{t + 2}}, \cdots ,{o_T}|{i_t} = {q_i},\lambda )$
输入：隐马尔可夫模型，观测序列
输出：观测序列概率
（1）

βT(i)=1,i=1,2,⋯,N β T ( i ) = 1 , i = 1 , 2 , ⋯ , N ${\beta _T}(i) = 1,\;\;\;\;i = 1,2, \cdots ,N$
（2）

βt(i)=∑j=1Naijbj(ot+1)βt+1(j) β t ( i ) = ∑ j = 1 N a i j b j ( o t + 1 ) β t + 1 ( j ) ${\beta _t}(i) = \sum\limits_{j = 1}^N {{a_{ij}}{b_j}({o_{t + 1}}){\beta _{t + 1}}(j)}$
（3）

P(O|λ)=∑i=1Nπibi(o1)β1(i) P ( O | λ ) = ∑ i = 1 N π i b i ( o 1 ) β 1 ( i ) $P(O|\lambda ) = \sum\limits_{i = 1}^N {{\pi _i}{b_i}({o_1}){\beta _1}(i)}$
四、一些概率与期望的计算
1、定义

γt(i)=P(it=qi|O,λ) γ t ( i ) = P ( i t = q i | O , λ ) ${\gamma _t}(i) = P({i_t} = {q_i}|O,\lambda )$ ，则有：

γt(i)=αt(i)βt(i)∑j=1Nαt(j)βt(j) γ t ( i ) = α t ( i ) β t ( i ) ∑ j = 1 N α t ( j ) β t ( j ) ${\gamma _t}(i) = \frac{{{\alpha _t}(i){\beta _t}(i)}}{{\sum\limits_{j = 1}^N {{\alpha _t}(j){\beta _t}(j)} }}$
2、定义

ξt(i,j)=P(it=qi,it+1=qj|O,λ) ξ t ( i , j ) = P ( i t = q i , i t + 1 = q j | O , λ ) ${\xi _t}(i,j) = P({i_t} = {q_i},{i_{t + 1}} = {q_j}|O,\lambda )$ ，则有：

ξt(i,j)=αt(i)aijbj(ot+1)βt+1(i)∑i=1N∑j=1Nαt(i)aijbj(ot+1)βt+1(i) ξ t ( i , j ) = α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( i ) ∑ i = 1 N ∑ j = 1 N α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( i ) ${\xi _t}(i,j) = \frac{{{\alpha _t}(i){a_{ij}}{b_j}({o_{t + 1}}){\beta _{t + 1}}(i)}}{{\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _t}(i){a_{ij}}{b_j}({o_{t + 1}}){\beta _{t + 1}}(i)} } }}$
3、期望
在观测O下状态i出现的期望值：

∑t=1Tγt(i) ∑ t = 1 T γ t ( i ) $\sum\limits_{t = 1}^T {{\gamma _t}(i)}$
在观测O下由状态i转移的期望值：

∑t=1T−1γt(i) ∑ t = 1 T − 1 γ t ( i ) $\sum\limits_{t = 1}^{T - 1} {{\gamma _t}(i)}$
在观测O下由状态i转移到状态j的期望值：

∑t=1T−1ξt(i,j) ∑ t = 1 T − 1 ξ t ( i , j ) $\sum\limits_{t = 1}^{T - 1} {{\xi _t}(i,j)}$

学习算法

一、监督学习方法
已给训练数据包括S个长度相同的观测序列和对应的状态序列，利用极大似然估计来估计隐马尔可夫模型的参数
1、转移概率的估计： ${\widehat a_{ij}} = \frac{{{A_{ij}}}}{{\sum\limits_{j = 1}^N {{A_{ij}}} }}$
2、观测概率的估计： ${\widehat b_j}(k) = \frac{{{B_{jk}}}}{{\sum\limits_{k = 1}^M {{B_{jk}}} }}$
3、初始状态概率 ${\pi _i}$ 为S个样本中初始状态为 $q_i$ 的频率
二、Baum-Welch算法
训练数据只包括S个长度为T的观测序列，目标是学习隐马尔可夫模型的参数，将观测序列数据看作观测数据O，状态序列数据看作不可观测的隐数据I，则模型变为： $P(O|\lambda ) = \sum\limits_I {P(O|I,\lambda )P(I|\lambda )}$
1、确定完全数据的对数似然函数
$\log P(O,I|\lambda )$
2、E步：求Q函数
$Q(\lambda ,\overline \lambda ) = \sum\limits_I {\log P(O,I|\lambda )P(O,I|\overline \lambda )}$
M步：求极大
具体算法：
输入：观测数据
输出：隐马尔可夫模型参数
（1）初始化
对n=0选取 $a_{ij}^{(0)},{b_j}{(k)^{(0)}},\pi _i^{(0)}$ 得到模型 ${\lambda ^{(0)}} = ({A^{(0)}},{B^{(0)}},{\pi ^{(0)}})$
（2）递推
$a_{ij}^{(n + 1)} = \frac{{\sum\limits_{t = 1}^{T - 1} {{\xi _t}(i,j)} }}{{\sum\limits_{t = 1}^{T - 1} {{\gamma _t}(i)} }}$
${b_j}{(k)^{(n + 1)}} = \frac{{\sum\limits_{t = 1,{o_t} = {v_k}}^T {{\gamma _t}(j)} }}{{\sum\limits_{t = 1}^T {{\gamma _t}(i)} }}$
$\pi _i^{(n + 1)} = {\gamma _1}(i)$
（3）终止
得到模型参数 ${\lambda ^{(n + 1)}} = ({A^{(n + 1)}},{B^{(n + 1)}},{\pi ^{(n + 1)}})$