人工智能/机器学习基础知识——隐马尔科夫模型（Hidden Markov Model，HMM）

最新推荐文章于 2024-05-17 09:42:07 发布

XaiverZ

最新推荐文章于 2024-05-17 09:42:07 发布

阅读量673

点赞数 20

分类专栏：人工智能/机器学习基础知识文章标签：机器学习人工智能隐马尔可夫模型 HMM

本文链接：https://blog.csdn.net/windgrin_/article/details/137689942

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章 0 订阅

订阅专栏

隐马尔科夫模型

Hidden Markov Model（HMM）

两组变量
- 状态变量：表示第 $i$ 时刻的系统状态
  
  隐藏的，不可观测的（亦被称为隐变量）
  
  $\{y_1, y_2, ..., y_n\}，y_i \in γ$
  - 取值范围：N个可能取值的离散空间
    
    ${s_1, s_2, ..., s_N\}$
- 观测变量：表示第 $i$ 个时刻的观测值
  
  ${x_1, x_2, ..., x_n\}$
  - 取值范围：连续或离散
    
    ${o_1, o_2, ..., o_M\}$
图中箭头表示变量间的依赖关系

马尔可夫链（Markov Chain）：系统下一时刻的状态仅由当前状态决定，不依赖于以往的任何状态
- 在任一时刻，观测变量的取值仅依赖于状态变量，即 $x_t$ 由 $y_t$ 确定，与其他状态变量及观测变量的取值无关
- $t$ 时刻的状态 $y_t$ 仅依赖于 $t - 1$ 时刻的状态 $y_{t-1}$ ，与此前 $t - 2$ 个状态无关
- 基于这种依赖关系，所有变量的联合概率分布为：
  
  $P\left(x_{1}, y_{1}, \ldots, x_{n}, y_{n}\right)=P\left(y_{1}\right) P\left(x_{1} \mid y_{1}\right) \prod_{i=2}^{n} P\left(y_{i} \mid y_{i-1}\right) P\left(x_{i} \mid y_{i}\right)$
除了结构信息，欲确定一个隐马尔科夫模型还需以下三组参数
- 状态转移概率：模型在各个状态间转换的概率，通常记为矩阵 $A=[a_{ij}]_{N×N}$
  
  $a_{i j}=P\left(y_{t+1}=s_{j} \mid y_{t}=s_{i}\right), \quad i \leqslant i, j \leqslant N$
  表示在任意时刻 $t$ ，若状态为 $s_i$ ，则在下一时刻状态为 $s_j$ 的概率
- 输出观测概率：模型根据当前状态获得各个观测值的概率，通常记为矩阵 $B=[b_{ij}]_{N×M}$
  
  $b_{i j}=P\left(x_{t}=o_{j} \mid y_{t}=s_{i}\right), \quad 1 \leqslant i \leqslant N, 1 \leqslant j \leqslant N$
  表示在任意时刻 $t$ ，若状态为 $s_i$ ，则观测值 $o_j$ 被获取的概率
- 初始状态概率：模型在初始时刻各状态出现的概率，通常记为 $π=(π_1, π_2, ..., π_N)$
  
  $\pi_{i}=P\left(y_{1}=s_{i}\right), \quad 1 \leqslant i \leqslant N$
  表示模型的初始状态为 $s_i$ 的概率
通过指定状态空间 $γ$ 、观测空间 $χ$ 和上述三组参数，就能确定一个HMM，通常用其参数 $λ = [A, B, π]$ 来指代。给定HMM，它按如下过程产生观测序列 ${x_1, x_2, ..., x_n\}$
1. 设置 $t = 1$ ，并根据初始状态概率 $π$ 选择初始状态 $y_1$
2. 根据状态 $y_t$ 和输出观测概率 $B$ 选择观测变量取值 $x_t$
3. 根据状态 $y_t$ 和状态转移矩阵 $A$ 转移模型状态，即确定 $y_{t+1}$
4. 若 $t < n$ ，设置 $t = t + 1$ ，并转到第2步，否则停止
HMM的三个基本问题
- 给定模型 $λ = [A, B, π]$ ，如何有效计算其产生观测序列 $x = \{x_1, x_2, ..., x_n\}$ 的概率 $P (x ∣ λ)$ ？换言之，如何评估模型与观测序列之间的匹配程度？
- 给定模型 $λ = [A, B, π]$ 和观测序列 $x = \{x_1, x_2, ..., x_n\}$ ，如何找到与此观测序列最匹配的状态序列 $y = \{y_1, y_2, ..., y_n\}$ ？换言之，如何根据观测序列推断出隐藏的模型状态？
- 给定观测序列 $x = \{x_1, x_2, ..., x_n\}$ ，如何调整模型参数 $λ = [A, B, π]$ 使得该序列出现的概率 $P (x ∣ λ)$ 最大？换言之，如何训练模型使其能最好地描述观测数据？