【机器学习自学笔记8】隐马尔可夫模型(HMM)

最新推荐文章于 2022-01-07 21:52:16 发布

Koorye

最新推荐文章于 2022-01-07 21:52:16 发布

阅读量274

点赞数 1

分类专栏：机器学习文章标签：隐马尔可夫模型人工智能算法

本文链接：https://blog.csdn.net/weixin_45901207/article/details/113140916

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

隐马尔可夫模型的结构

HMM 模型是一种生成式模型。

HMM 模型中有 2 个相关序列，分别是状态序列和观测序列，HMM 模型具有以下规则：

观测序列是可以直接观测的，状态序列是不可观测的
状态序列在 t 时刻的值只与 t-1 时刻的值有关
观测序列在 t 时刻的值只与 t 时刻状态序列的值有关

设状态序列
$\{X_1,X_2,\dots,X_n\}$
观测序列
$O=\{O_1,O_2,\dots,O_n\}$
则 HMM 模型的结构如下图所示：

隐马尔科夫模型的假设

根据上述结构和规则，我们可以得出如下假设：

马尔可夫性假设：t 时刻的状态出现的概率只与 t-1 时刻的状态有关
$P\{X_t|X_1,X_2,\dots,X_{t-1}\}=P\{X_t|X_{t-1}\}$
齐次性假设：时间平移不变性
$P\{X_t|X_{t-1}\}=P\{X_s|X_{s-1}\},if\quad X_t=X_s\quad and\quad X_{t-1}=X_{s-1}$
观测独立性假设：某个时刻 t 的观测值只依赖于该时刻的状态值
$P\{O_t|X_1,X_2,\dots,X_{t-1},O_1,O_2,\dots,O_{t-1}\}=P\{O_t|X_t\}$

根据上述假设，得 HMM 的联合概率密度：
$P\{O_1,O_2,\dots,O_T,X_1,X_2,\dots,X_T\}$

$=P\{X_1\}P\{O_1|X_1\}\prod_{t=2}^{T}P\{X_t|X_{t-1}\}P\{O_t|X_t\}$

隐马尔科夫模型的组成

观察 HMM 的联合概率密度，发现其分为三部分：

初始状态概率
$P\{X_1\}$
状态转移概率
$P\{X_t|X_{t-1}\}$
观测输出概率 (发射概率)
$P\{O_t|X_t\}$

在状态值和观测值取值为离散值的情况下，这三种概率可以表示为矩阵。

假定状态值可能的取值为
$x_1,x_2,\dots,x_M$
观测值可能的取值为
$o_1,o_2,\dots,o_N$
则可得：

初始概率矩阵 $\pi$
$\pi_i=P\{x_i\},i=1,2,\dots,M$
转移概率矩阵 A
$A_{ij}=P\{x_j|x_i\},i,j=1,2,\dots,M$
发射概率矩阵 B
$B_{ij}=P\{o_j|x_i\},i=1,2,\dots,M,j=1,2,\dots,N$

最终 HMM 可表示为
$\lambda=(\pi,A,B)$

维特比算法

问题

对于
$\lambda=(\pi,A,B)$
隐状态集合
$Q=\{q_1,q_2,\dots,q_N\}$
观测值集合
$V=\{v_1,v_2,\dots,v_M\}$

观测结果序列
$O=(o_0,o_1,\dots,o_T)$
假设
$\pi=\begin{bmatrix} \pi_i \end{bmatrix}$
其中 $\pi_i$ 表示 $q_i$ 的初始概率。
$A=\begin{bmatrix} a_{ij} \end{bmatrix}$
其中 $a_{ij}$ 表示 $q_i$ 向 $q_j$ 的转移概率。
$B=\begin{bmatrix} b_{ij} \end{bmatrix}$
其中 $b_{ij}$ 表示 $q_i$ 向 $v_j$ 的发射概率。

求出当前观测结果 O 最有可能的隐状态序列
$I=(i_0,i_1,\dots,i_t)$

解法

定义

设
$\delta_t(i)=\max_{i_1,i_2,\dots,i_{t-1}}P\{i_t=i,i_{t-1},\dots,i_1,o_t,\dots,o_1|\lambda\}$
表示时刻 t 状态为 i 的所有单个路径中概率最大值，则可得
$\delta_{t+1}(i)=\max_{i_1,i_2,i_{t-1}}P\{i_{t+1}=i,i_t,\dots,i_1,o_{t+1},\dots,o_1|\lambda\}$

$=\max_{1\le j\le N}[\delta_t(j)a_{ji}]b_i(o_{t+1})$

设
$\Psi_t(i)=arg\max_{i\le j\le N}[\delta_{t-1}(j)a_{ji}]$
表示时刻 t 状态为 i 的所有单个路径中概率最大的路径的第 t-1 个结点。

例子

医生通过观察病人的状态判断病人是否生病。

设病人有状态有 {生病，健康}，医生观测结果有 {头晕，不头晕}。

假设病人第一天生病，健康的概率各为 0.5；

若前一天生病，则第二天生病的概率为 0.6，健康的概率为 0.4；

若前一天健康，则第二天健康的概率为 0.8，生病的概率为 0.2；

若生病，则观测到头晕的概率为 0.7，不头晕的概率为 0.3；

若健康，则观测到头晕的概率为 0.1，不头晕的概率为 0.9；

医生观测三天，病人的观测值序列为 {不头晕，头晕，不头晕}；

推测病人这三天是否生病。

构造出初始矩阵，转移概率矩阵，发射概率矩阵如下：
$\pi=\begin{pmatrix} 0.5\\ 0.5 \end{pmatrix}$

$A=\begin{pmatrix} 0.6&0.4\\ 0.2&0.8\\ \end{pmatrix}$

$B=\begin{pmatrix} 0.7&0.3\\ 0.1&0.9\\ \end{pmatrix}$

初始化

$\delta_1(i)=\pi_ib_i(o_1)$

即
$\delta_1(1)=\pi_1b_1(o_1=不头晕)=\pi_1b_{12}=0.15$

$\delta_1(2)=\pi_2b_2(o_1=不头晕)=\pi_2b_{22}=0.45$

上述两个值分别为第一天生病且观测到不头晕，与第一天不生病且观测到不头晕的概率。
$\Psi_1(1)=\Psi_1(2)=0$

迭代

第一次迭代，求第二时刻

$\delta_2(j)=\max_{1\le i\le2}[\delta_1(i)a_{ij}]b_j(o_2)$

即
$\delta_1(1)a_{11}=0.15\cdot0.6=0.09$

$\delta_1(2)a_{21}=0.45\cdot0.2=0.09$

$\delta_2(1)=\max_{1\le i\le2}[\delta_1(i)a_{i1}]b_1(o_2=头晕)$

$=0.09\cdot0.7=0.063$

$\Psi_2(1)=arg\max_{1\le i\le2}[\delta_1(i)a_{i2}]=1$

$\delta_1(1)a_{12}=0.15\cdot0.4=0.06$

$\delta_1(2)a_{22}=0.45\cdot0.8=0.36$

$\delta_2(2)=\max_{1\le i\le2}[\delta_1(i)a_{i2}]b_2(o2=头晕)$

$=0.36\cdot0.1=0.036$

$\Psi_2(2)=arg\max_{1\le i\le2}[\delta_1(i)a_{i2}]=2$

第二次迭代，求第三时刻

$\delta_2(1)a_{11}=0.063\cdot0.6=0.0378$

$\delta_2(2)a_{21}=0.036\cdot0.2=0.0072$

$\delta_3(1)=\max_{1\le i\le2}[\delta_2(i)a_{i1}]b_1(o_3=不头晕)$

$=0.0378\cdot0.3=0.01134$

$\Psi_3(1)=1$

$\delta_2(1)a_{12}=0.063\cdot0.4=0.0252$

$\delta_2(2)a_{22}=0.036\cdot0.8=0.0288$

$\delta_3(2)=\max_{1\le i\le2}[\delta_2(i)a_{i2}]b_2(o_3=不头晕)$

$=0.0288\cdot0.9=0.02592$

$\Psi_3(2)=2$

回溯

$\hat{q_3}=arg\max_{0\le i\le2}[\delta_3(i)]=2$

$\hat{q_t}=\Psi_{t+1}(\hat{q_{t+1}})$

即
$\hat{q_2}=\Psi_3(\hat{q_3})=\Psi_3(2)=2$

$\hat{q_1}=\Psi_2(\hat{q_2})=\Psi_2(2)=2$

解得隐状态序列为
$\hat{Q}=(2,2,2)$
即 (健康，健康，健康)

lta_2(i)a_{i2}]b_2(o_3=不头晕)
$$