统计学习方法-隐马尔可夫-公式推导

weixin_44144171

于 2023-01-06 11:41:44 发布

阅读量425

点赞数

分类专栏：统计学习方法贝叶斯推理文章标签：学习方法人工智能隐马尔可夫 HMM

本文链接：https://blog.csdn.net/weixin_44144171/article/details/128573798

版权

统计学习方法同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

贝叶斯推理

1 篇文章 0 订阅

订阅专栏

统计学习方法-隐马尔可夫-公式推导

状态序列概率 $P(I|\lambda)$
已知状态序列下的观测序列概率 $\lambda)$
完全数据序列概率 $I|\lambda)$
未知状态序列下的观测序列概率 $\lambda)$

状态序列概率 $P(I|\lambda)$

长度为 $T$ 的状态序列 $(i_1, i_2, \cdots, i_T)$ 的概率 $P(I|{\lambda})$ 可表示为
$P(I|{\lambda}) = {{\pi}_{i_1} {a_{i_1 i_2}} {a_{i_2 i_3}} \cdots {a_{i_{T-1} i_{T}}}} \tag{1}$

推导过程如下：
step1:
$P(I|{\lambda}) = P(i_1, i_2, \cdots, i_T | {\lambda})$
根据上式，首先要明白的是概率 $P(I|{\lambda})$ 本质上为状态 $(i_1, i_2, \cdots, i_T)$ 的联合概率，因而可以写成等式右端的形式。

step2:
根据联合概率和条件概率的关系
$\tag{2}$
将概率 $P(i_1, i_2, \cdots, i_T | {\lambda})$ 展开为
$P(i_1, i_2, \cdots, i_T | {\lambda}) = P(i_T | i_{T-1}, \cdots, i_1 , {\lambda}) P(i_{T-1}, i_{T-2}, \cdots, i_1 | {\lambda}) \\[0.5em] P(i_{T-1}, i_{T-2}, \cdots, i_1 | {\lambda}) = P(i_{T-2} | i_{T-3}, \cdots, i_1 , {\lambda}) P(i_{T-2}, i_{T-3}, \cdots, i_1 | {\lambda}) \\[0.5em] {\cdots} \\[0.2em] P(i_2, i_1 | {\lambda}) = P(i_2 | i_1 , {\lambda}) \tag{3}$

可继续使用式(2)对概率 $P(i_1, i_2, \cdots, i_T | {\lambda})$ 展开为
$P(i_1, i_2, \cdots, i_T | {\lambda}) = P(i_T | i_{T-1} \cdots, i_1 , {\lambda}) P(i_{T-2} | i_{T-3} , \cdots, i_1 , {\lambda}) {\cdots} P(i_2|i_1, {\lambda}) P(i_1 | {\lambda}) \tag{4}$

step3:
根据隐马尔可夫的定义，隐马尔可夫模型有两个基本假设
齐次马尔可夫性假设为其中之一，可简单描述为：

齐次马尔可夫性假设
即假设隐藏的马尔可夫链在任意时刻 $t$ 的状态只依赖于前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 $t$ 无关。
$P(i_t | i_{t-1}, o_{t-1}, \cdots, i_1, o_1) = P(i_t | i_{t-1}), t=1,2,\cdots, T \tag{5}$
以上内容参考统计学习方法（李航）

根据隐马尔可夫的齐次性可得：
$P(i_T | i_{T-1}, \cdots, i_1 , {\lambda}) = P(i_{T} | i_{T-1} , {\lambda}) \\[0.5em] P(i_{T-1} | i_{T-2}, \cdots, i_1 , {\lambda}) = P(i_{T-1} | i_{T-2} , {\lambda}) \\[0.5em] {\cdots} \\[0.2em] P(i_3 | i_2, i_1, {\lambda}) = P(i_3 | i_2, {\lambda}) \tag{6}$

step4:
将式（6）代入到式（4），可得
$P(I|{\lambda}) = P(i_1, i_2, \cdots, i_T | {\lambda}) = P(i_T | i_{T-1} , {\lambda}) P(i_{T-1} | i_{T-2} , {\lambda}) {\cdots} P(i_2 | i_1, {\lambda}) P(i_1 | {\lambda}) \tag{7}$

因此
$P(I|{\lambda}) = {{\pi}_{i_1} {a_{i_1 i_2}} {a_{i_2 i_3}} \cdots {a_{i_{T-1} i_{T}}}} \tag{8}$

已知状态序列下的观测序列概率 $\lambda)$

对固定的状态序列 $(i_1, i_2, \cdots, i_T)$ ，其对应的观测序列 $(o_1, o_2, \cdots, o_T)$ 的概率 $I,{\lambda})$ 是

${\lambda}) = b_{i_1}(o_1) b_{i_2}(o_2) {\cdots} b_{i_T}(o_T) \tag{2.1}$

推导过程如下：

step1:
${\lambda}) = P(o_1, o_2, \cdots, o_T | I , {\lambda}) \tag{2.2}$
根据上式，首先要明白的是概率 $P(I|{\lambda})$ 本质上为 $(o_1, o_2, \cdots, o_T)$ 的联合概率，因而可以写成等式右端的形式。

step2:
根据联合概率和条件概率的关系 $P (A B) = P (A / B) P (B)$
将概率 $P(o_1, o_2, \cdots, o_T | I , {\lambda})$ 展开为
$P(o_1, o_2, \cdots, o_T | I , {\lambda}) = P(o_T | o_{T-1}, o_{T-2}, \cdots, o_1, I, {\lambda}) P(o_{T-1}, o_{T-2}, \cdots, o_1 | I, {\lambda}) \\[0.5em] P(o_{T-1}, o_{T-2}, \cdots, o_1 | I, {\lambda}) = P(o_{T-1} | o_{T-2}, o_{T-3}, \cdots, o_1, I, {\lambda}) P(o_{T-2}, o_{T-3}, \cdots, o_1 | I, {\lambda}) \\[0.5em] {\cdots} \\[0.2em] P(o_2, o_1 | I, {\lambda}) = P(o_2 | o_1 , I, {\lambda}) \tag{2.3}$

将上式代入到式(2.2)，可更新概率 $P(o_1, o_2, \cdots, o_T | I , {\lambda})$ 为

$P(o_1, o_2, \cdots, o_T | I, {\lambda}) = P(o_T | o_{T-1}, o_{T-2}, \cdots, o_1, I, {\lambda}) P(o_{T-1} | o_{T-2}, o_{T-3}, \cdots, o_1, I, {\lambda}) {\cdots} P(o_2 | o_1 , {\lambda}) P(o_1 | {\lambda}) \tag{2.4}$

step3:
根据隐马尔可夫的定义，隐马尔可夫模型的另一个假设为观测独立性假设为其中之一，可简单描述为：

观测独立性假设
即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，其其他状态和观测无关
$P(o_t | i_T, o_T, {\cdots}, i_t, o_t, \cdots, i_1, o_1) = P(o_t | i_t), t=1,2,\cdots, T \tag{2.5}$
以上内容参考统计学习方法（李航）

根据隐马尔可夫的观测独立性可得：
$P(o_T | o_{T-1}, o_{T-2}, \cdots, o_1, I, {\lambda}) = P(o_{T} | i_{T} , {\lambda}) \\[0.5em] P(o_{T-1} | o_{T-2}, o_{T-3}, \cdots, o_1, I, {\lambda}) = P(o_{T-1} | i_{T-1} , {\lambda}) \\[0.5em] {\cdots} \\[0.2em] P(o_2 | o_1 , I, {\lambda}) = P(o_2 | i_2, {\lambda}) \tag{2.6}$

step4:
将式（2.6）代入到式（2.4），可得
${\lambda}) = P(o_1, o_2, \cdots, o_T | I , {\lambda}) = P(o_{T} | i_{T} , {\lambda}) P(o_{T-1} | i_{T-1} , {\lambda}) {\cdots} P(o_2 | i_2, {\lambda}) P(o_1 | i_1, {\lambda}) \tag{2.7}$

因此
${\lambda}) = b_{i_1}(o_1) b_{i_2}(o_2) {\cdots} b_{i_T}(o_T) \tag{2.8}$

完全数据序列概率 $I|\lambda)$

完全数据定义为 ${I,O\}$ ,其中 $I$ 代表状态序列， $O$ 代表观测序列
则完全数据出现的概率 ${\lambda})$ 为
$\lambda) = P(O|I, \lambda) P(I | \lambda) = {{\pi}_{i_1} b_{i_1}(o_1) a_{i_1 i_2} \cdots a_{i_{T-1} i_T} b_{i_T}(o_T) }$

推导过程如下：
参考式（1）和式（2.1），则易得以上结论

未知状态序列下的观测序列概率 $\lambda)$

状态序列的概率 $\lambda)$ 可展开为
$\lambda)=\sum \limits_{I} P(O|I, \lambda) P(I| \lambda) =\sum \limits_{i_1, i_2, \cdots, i_T} {{\pi}_{i_1} b_{i_1}(o_1) a_{i_1 i_2} \cdots a_{i_{T-1} i_T} b_{i_T}(o_T) }$

推导过程如下：
step1:
根据全概率公式展开观测序列概率 $\lambda)$ 为
$\lambda) = \sum \limits_{I} P(O, I | \lambda) = \sum \limits_{I} P(O|I, \lambda) P(I| \lambda)$