统计学习方法第十章——隐马尔可夫模型

YakultGo

已于 2022-04-29 14:54:00 修改

阅读量312

点赞数

分类专栏：统计学习方法文章标签：概率论线性代数机器学习

于 2022-04-29 14:44:45 首次发布

本文链接：https://blog.csdn.net/weixin_43869610/article/details/124495858

版权

统计学习方法专栏收录该内容

13 篇文章 1 订阅

订阅专栏

10.2 概率计算算法

10.2.1 直接计算法

$\mid \lambda)=P\left(i_{1}, i_{2}, \ldots, i_{T} \mid \lambda\right)=P\left(i_{T} \mid i_{1}, i_{2}, \ldots, i_{T-1}, \lambda\right) P\left(i_{1}, i_{2}, \ldots, i_{T-1} \mid \lambda\right)$

根据齐次一阶马尔可夫假设： $P\left(i_{T} \mid i_{1}, i_{2}, \ldots, i_{T-1}, \lambda\right)=P\left(i_{T} \mid i_{T-1}, \lambda\right)=a_{i_{T-1}, i_{T}}$ 所以
$\begin{aligned} P(I|\lambda)&=a_{i_{T-1}, i_{T}}P(i_1,i_2,\cdots ,i_{T-1}|\lambda)\\ &=a_{i_{T-1}, i_{T}}a_{i_{T-2}, i_{T-1}}P(i_1,i_2,\cdots ,i_{T-2}|\lambda)\\ &={\pi}_{i_1}\prod_{t=2}^Ta_{i_{t-1},i_t} \end{aligned}$
又因为：

$\mid I, \lambda)=P\left(o_{1}, o_{2}, \ldots, o_{T} \mid i_{1}, i_{2}, \ldots, i_{T}, \lambda\right)=P\left(o_{T} \mid o_{1}, o_{2}, \ldots o_{T-1}, i_{1}, i_{2}, \ldots, i_{T}, \lambda\right) P\left(o_{1}, o_{2}, \ldots o_{T-1} \mid i_{1}, i_{2}, \ldots i_T, \lambda \right)$

根据观察独立性假设
$\begin{aligned} P(O|I,\lambda)&=P(o_T|i_T)P(o_1,o_2, \cdots ,o_{T-1}|i_1,i_2,\cdots ,i_T,\lambda)\\ &=b_{i_1}(o_1)P(o_1,o_2, \cdots ,o_{T-1}|i_1,i_2,\cdots ,i_{T},\lambda)\\ &=b_{i_1}(o_1)b_{i_2}(o_2)P(o_1,o_2, \cdots ,o_{T-2}|i_1,i_2,\cdots ,i_{T},\lambda)\\ &=\prod_{t=1}^Tb_{i_t}(o_t) \end{aligned}$
所以 $O 和 I$ 同时出现的联合概率为：
$\begin{aligned} P(O, I \mid \lambda) &=P(O \mid I, \lambda) P(I \mid \lambda) \\ &=\pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i_{1} i_{2}} b_{i_{2}}\left(o_{2}\right) \cdots a_{i_{T-1} i_{T}} b_{i_{T}}\left(o_{T}\right) \end{aligned}$
然后, 对所有可能的状态序列 $I$ 求和, 得到观测序列 $O$ 的概率 $\mid \lambda)$ , 即
$\begin{aligned} P(O \mid \lambda) &=\sum_{I} P(O \mid I, \lambda) P(I \mid \lambda) \\ &=\sum_{i_{1}, i_{2}, \cdots, i_{T}} \pi_{i_{1}} b_{i_{1}}\left(o_{1}\right) a_{i_{1} i_{2}} b_{i_{2}}\left(o_{2}\right) \cdots a_{i_{T-1} i_{T}} b_{i_{T}}\left(o_{T}\right) \end{aligned}$

10.2.2 前向算法

首先，根据贝叶斯公式又有：
$\begin{aligned} &P(A,B,C)=P(A)P(B|A)P(C|A,B)\\ &P(A,B,C|\lambda)=P(A|\lambda)P(B|A,\lambda)P(C|A,B,\lambda)\\ &P(A|\lambda)=\sum_BP(A,B|\lambda) \end{aligned}$

$\begin{aligned} \alpha_{t+1}(i) &=P(o_1,\cdots,o_{t+1},i_{t+1}=q_i|\lambda)\\ &=\sum_{j=1}^{N} P\left(o_{1}, \ldots, o_{t+1}, i_{t}=q_{j}, i_{t+1}=q_{i} \mid \lambda\right) \\ &=\sum_{j=1}^{N} P\left(o_{1}, \ldots, o_{t}, i_{t}=q_{j} \mid \lambda\right) P\left(i_{t+1}=q_{i} \mid o_{1}, \ldots, o_{t}, i_{t}=q_{j}, \lambda\right) P\left(o_{t+1} \mid o_{1}, \ldots, o_{t}, i_{t}=q_{j}, i_{t+1}=q_{i}, \lambda\right) \\ &=\sum^{N} P\left(o_{1}, \ldots, o_{t}, i_{t}=q_{j} \mid \lambda\right) P\left(i_{t+1}=q_{i} \mid i_{t}=q_{j}, \lambda\right) P\left(o_{t+1} \mid i_{t+1}=q_{i}, \lambda\right)\\ &=\sum_{j=1}^N\alpha_t(j)a_{ji}b_i(o_{t+1}),i=1,2,\cdots,N \end{aligned}$

10.2.3 后向算法

$\begin{aligned} \beta_t(i)&=P(o_{t+1},o_{t+2},\cdots,o_T|i_t=q_i,\lambda)\\ &=\sum_{j=1}^NP(o_{t+1},o_{t+2},\cdots,o_T,i_{t+1}=q_j|i_t=q_i,\lambda)\\ &=\sum_{j=1}^NP(i_{t+1}=q_j|i_t=q_i,\lambda)P(o_{t+2},\cdots,o_T|i_{t+1}=q_j,i_t=q_i,\lambda)P(o_{t+1}|o_{t+2},\cdots,o_T,i_{t+1}=q_j,i_t=q_i,\lambda)\\ &=\sum_{j=1}^NP(i_{t+1}=q_j|i_t=q_i,\lambda)P(o_{t+2},\cdots,o_T|i_{t+1}=q_j,\lambda)P(o_{t+1}|i_{t+1}=q_j,\lambda)\\ &=\sum_{j=1}^Na_{ij}\beta_{t+1}(j)b_j(o_{t+1})\\ &=\sum_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j) \end{aligned}$

合并公式:
$\begin{aligned} P(O \mid \lambda) &=\sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{t}(i) a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j) \\ &=\sum_{i=1}^{N} \alpha_{t}(i) \sum_{j=1}^{N} a_{i j} b_{j}\left(o_{t+1}\right) \beta_{t+1}(j) \\ &=\sum_{i=1}^{N} \alpha_{t}(i) \beta_{t}(i) \end{aligned}$
又因为
$\begin{aligned} \alpha_{t}(i) \beta_{t}(i) &=P\left(o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i} \mid \lambda\right) P\left(o_{t+1}, \ldots, o_{T} \mid i_{t}=q_{i}, \lambda\right) \\ &=P\left(o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i} \mid \lambda\right) P\left(o_{t+1}, \ldots, o_{T} \mid o_{1}, o_{2}, \ldots, o_{t}, i_{t}=q_{i}, \lambda\right) \\ &=P\left(o_{1}, o_{2}, \ldots, o_{T}, i_{t}=q_{i} \mid \lambda\right) \\ &=P\left(O, i_{t}=q_{i} \mid \lambda\right) \end{aligned}$
所以
$\sum_{i=1}^{N} \alpha_{t}(i) \beta_{t}(i)=\sum_{i=1}^NP(O,i_t=q_i|\lambda)=P(O|\lambda)$

10.3 学习算法

按照Q函数的定义：
$\begin{aligned} Q(\lambda,\overline{\lambda})&=E_I[logP(O,I|\lambda)|O,\overline{\lambda}]\\ &=\sum_IP(I|O,\overline{\lambda})logP(O,I|\lambda)\\ &=\sum_I\frac{P(O,I|\overline{\lambda})}{P(O|\overline{\lambda})}logP(O,I|\lambda) \end{aligned}$
略去对 $\lambda$ 而言的常数因子 $\frac{1}{P(O|\overline{\lambda})}$ ，于是得到式子(10.33)
$Q(\lambda,\overline{\lambda})=\sum_IP(O,I|\overline{\lambda})logP(O,I|\lambda)$
式子(10.35)求偏导得结果是：
$\frac{P(O,i_1=i|\overline{\lambda})}{\pi_i}+\gamma=0$
然后两边同时乘以 $\pi_i$ 得到书上的结果：
$P(O,i_1=i|\overline{\lambda})+\gamma\pi_i=0$
式子(10.37)按照上面的方法计算一遍：

注意到 $a_{ij}$ 满足约束条件 $\sum_{j=1}^{N}a_{ij}=1$ , 利用拉格朗日乘子法, 写出拉格朗日函数:
$\sum_{i=1}^N\sum_{j=1}^N\sum_{t=1}^{T-1}loga_{ij}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})+\beta(\sum_{j=1}^Na_{ij}-1)$
对其求偏导数并令结果为0得
$\sum_{t=1}^{T-1}\frac{1}{a_{ij}}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})+\beta=0\\ \sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})+\beta a_{ij}=0\\ a_{ij}=-\frac{1}{\beta}\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})\\ \sum_{j=1}^Na_{ij}=\sum_{j=1}^N-\frac{1}{\beta}\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})\\ \beta=-\sum_{t=1}^{T-1}P(O,i_t=i|\overline{\lambda})$
然将得到的 $\beta$ 代入最开始那个式子就得到(10.37)
$a_{i j}=\frac{\sum_{t=1}^{T-1} P\left(O, i_{t}=i, i_{t+1}=j \mid \bar{\lambda}\right)}{\sum_{t=1}^{T-1} P\left(O, i_{t}=i \mid \bar{\lambda}\right)}$
同样对式子(10.38)进行一样的操作，同样用拉格朗日乘子法, 约束条件是 $\sum_{k=1}^{M} b_{j}(k)=1$ 。注意, 只有在 $o_{t}=v_{k}$ 时 $b_{j}\left(o_{t}\right)$ 对 $b_{j}(k)$ 的偏导数才不为 0 , 以 $I\left(o_{t}=v_{k}\right)$ 表示。求得拉格朗日函数为：
$\sum_{j=1}^N\sum_{t=1}^Tlogb_j(o_t)P(O,i_t=j|\overline{\lambda})+\eta(\sum_{k=1}^M-1)=0$
对其求偏导数并令结果为0
$\sum_{t=1}^T\frac{P(O,i_t=j|\overline{\lambda})I(o_t=v_k)}{b_j(o_k)}+\eta=0\\ b_j(k)=-\frac{1}{\eta}\sum_{t=1}^TP(O,i_t=j|\overline{\lambda})I(o_t=v_k)\\ \eta=-\sum_{t=1}^T\sum_{k=1}^MP(O,i_t=j|\overline{\lambda})I(o_t=v_k)\\ \eta=-\sum_{t=1}^TP(O,i_t=j|\overline{\lambda})$
将 $\eta$ 代回上式得式子(10.38)
$b_{j}(k)=\frac{\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right) I\left(o_{t}=v_{k}\right)}{\sum_{t=1}^{T} P\left(O, i_{t}=j \mid \bar{\lambda}\right)}$
下面对(10.39)~(10.41)进行推导
$\begin{aligned} a_{i j}&=\frac{\sum_{t=1}^{T-1} P\left(O, i_{t}=i, i_{t+1}=j \mid \bar{\lambda}\right)}{\sum_{t=1}^{T-1} P\left(O, i_{t}=i \mid \bar{\lambda}\right)}\\ &=\frac{\sum_{t=1}^{T-1}P(O,i_t=i,i_{t+1}=j|\overline{\lambda})\frac{1}{P(O|\overline{\lambda})}}{\sum_{t=1}^{T-1}P(O,i_t=i|\overline{\lambda})\frac{1}{P(O|\overline{\lambda})}} \\&=\frac{\sum_{t=1}^{T-1}\zeta_t(i,j)}{\sum_{t=1}^{T-1}\gamma_t(i)} \end{aligned}$

$\begin{aligned} b_j(k)&=\frac{\sum_{t=1}^TP(O,i_t=j|\overline{\lambda})I(o_t=v_k)}{\sum_{t=1}^TP(O,i_t=j|\overline{\lambda})}\\ &=\frac{\sum_{t=1,o_t=v_k}^TP(O,i_t=j|\overline{\lambda})\frac{1}{P(O|\overline{\lambda})}}{\sum_{t=1}^TP(O,i_t=j|\overline{\lambda})\frac{1}{P(O|\overline{\lambda})}}\\ &=\frac{\sum_{t=1,o_t=v_k}^T\gamma_t(j)}{\sum_{t=1}^T\gamma_t(j)} \end{aligned}$

$\pi_i=\frac{P(O,i_1=i|\overline{\lambda})}{P(O|\overline{\lambda})}=\gamma_1(i)$

YakultGo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法第十章——隐马尔可夫模型

10.2 概率计算算法10.2.1 直接计算法P(I∣λ)=P(i1,i2,…,iT∣λ)=P(iT∣i1,i2,…,iT−1,λ)P(i1,i2,…,iT−1∣λ)P(I \mid \lambda)=P\left(i_{1}, i_{2}, \ldots, i_{T} \mid \lambda\right)=P\left(i_{T} \mid i_{1}, i_{2}, \ldots, i_{T-1}, \lambda\right) P\left(i_{1}, i_{2}, \ldots, i_{T
复制链接

扫一扫