隐马尔可夫模型------基本概念

zzzyan10

已于 2023-03-13 21:22:46 修改

阅读量217

点赞数 1

分类专栏：摘自【数学之美】文章标签：算法人工智能机器学习

于 2023-03-08 14:47:45 首次发布

本文链接：https://blog.csdn.net/weixin_48912485/article/details/129389160

版权

摘自【数学之美】专栏收录该内容

2 篇文章 0 订阅

订阅专栏

隐马尔可夫模型的定义

马尔课可夫假设：随机过程中各个状态 $S_{t}$ 的概率分布，只与它的前一个状态 $S_{t-1}$ 有关，即

$P(S_{t}\mid S_{1},S_{2},...,S_{t-1}) = P(S_{t}\mid S_{t-1})$ 。符合这个假设的随机过程称为马尔可夫过程，也称为马尔可夫链。

离散的马尔可夫过程：

隐马尔可夫模型是上述马尔可夫链的一个扩展：任一时刻 t 的状态 $S_{t}$ 是不可见的。所以观察者没法通过观察得到一个状态序列 $S_{1},S_{2},...,S_{T}$ 来推测转移概率等参数。但是，隐马尔可夫模型在每个时刻 t 会输出一个符号 $O_{t}$ ,而且 $O_{t}$ 跟 $S_{t}$ 相关且仅跟 $S_{t}$ 相关。

隐马尔可夫模型：

隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测序列从而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态序列，称为状态序列(state sequence)；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。

隐马尔可夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。隐马尔可夫模型的形式定义如下：

设Q是所有可能的状态集合，V是所有可能的观测的集合：

$Q=\left \{ s_{1},s_{2},...,s_{N} \right \},V=\left \{ v_{1},v_{2},...,v_{M} \right \}$

其中，N是可能的状态数，M是可能的观测数。

I是长度为T的状态序列，O是对应的观测序列：

$I=(i_{1},i_{2},...,i_{T}),O=(o_{1},o_{2},...,o_{T})$

A是状态转移概率矩阵：

$A=\left [ a_{ij} \right ]_{N\times N}$ (2.1)

其中，

$a_{ij}=P(i_{t+1}=s_{j}\mid i_{t}=s_{i}), i=1,2,...,N; j=1,2,...,N;$ (2.2)

是在时刻t处于状态 $s_{i}$ 的条件下在时刻 t+1 转移到状态 $q_{j}$ 的概率。

B是观测概率矩阵：

$B=\left [ b_{j}(k) \right ]_{N\times M}$ (2.3)

其中，

$b_{j}(k)=P(o_{t}=v_{k}\mid i_{t}=s_{j}),k=1,2,...,M; j=1,2,...,N$ (2.4)

是在时刻 t 处于状态 $s_{j}$ 的条件下生成观测 $v_{k}$ 的概率。

$\pi$ 是初始状态概率向量：

$\pi=(\pi_{i})$ (2.5)

其中，

$\pi=P(i_{1}=s_{i}),i=1,2,...,N$ (2.6)

是时刻 t=1处于状态 $s_{i}$ 的概率。

隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵A和观测概率矩阵B决定。 $\pi$ 和A决定状态序列，B决定观测序列。因此，隐马尔可夫模型 $\lambda$ 可以用三元符号表示，即

$\lambda =(A,B,\pi )$ (2.7)

A,B, $\pi$ 称为马尔可夫模型的三要素。

状态转移概率矩阵A与初始状态概率向量 $\pi$ 确定了隐藏的马尔可夫链，生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测，与状态序列综合确定了如何产生观测序列。

从定义可知，隐马尔可夫模型作了两个基本假设：

（1）齐次马尔可夫性假设，即假设隐藏的马尔可夫连在任意时刻 t 的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻 t 无关：

$P(i_{t}\mid i_{t-1},o_{t-1},...,i_{1},o_{1})=P(i_{t}\mid i_{t-1}), t=1,2,...,T$ (2.8)

（2）观测独立性假设，即假设任意时刻的观测只依赖于该时刻的马尔科夫链的状态，与其他观测及状态无关：

$P(o_{t}\mid i_{T},o_{T},i_{T-1},o_{T-1},...,i_{t+1},o_{t+1},i_{t},i_{t-1},o_{t-1},...,i_{1},o_{1})=P(o_{t}\mid i_{t})$ (2.9)

观测序列的生成过程

根据隐马尔可夫模型定义，可以将一个长度为T的观测序列 $O=(o_{1},o_{2},...,o_{T})$ 的生成过程描述如下。

输入：隐马尔可夫模型 $\lambda =(A,B,\pi )$ ，观测序列长度T；

输出：观测序列 $O=(o_{1},o_{2},...,o_{T})$ 。

(1) 按照初始状态分布 $\pi$ 产生状态 $i_{1}$ ;

(2) 令 t=1;

(3) 按照状态 $i_{t}$ 的观测概率分布 $b_{i_{t}}(k)$ 生成 $O_{t}$ ;

(4) 按照状态 $i_{t}$ 的状态转移概率分布 $\left \{ a_{i_{t} i_{t+1}} \right \}$ 产生状态 $i_{t+1},i_{t+1}=1,2,...,N$ ;

(5) 令t = t + 1;如果t<T,转(3)；否则，终止。

隐马尔可夫模型的3个基本问题

(1) 概率计算问题。给定模型 $\lambda =(A,B,\pi )$ 和观测序列 $O=(o_{1},o_{2},...,o_{T})$ ，计算在模型 $\lambda$ 下观测序列O出现的概率 $P(O\mid \lambda )$ 。

(2) 学习问题。已知观测序列 $O=(o_{1},o_{2},...,o_{T})$ ，估计模型 $\lambda =(A,B,\pi )$ 参数，使得在该模型下观测序列概率 $P(O\mid \lambda )$ 最大。即用极大似然估计的方法估计参数。

(3) 预测问题，也称为解码(decoding)问题。已知模型 $\lambda =(A,B,\pi )$ 和观测序列 $O=(o_{1},o_{2},...,o_{T})$ ，求对给定观测序列条件概率 $P(O\mid \lambda )$ 最大的状态序列 $I=(i_{1},i_{2},...,i_{T})$ 。即给定观测序列，求最有可能的对应的状态序列。