HMM算法原理

碌碌无为的小张

已于 2023-06-03 11:56:25 修改

阅读量548

点赞数

分类专栏： NLP 文章标签：算法机器学习人工智能自然语言处理

于 2023-05-31 12:28:44 首次发布

本文链接：https://blog.csdn.net/weixin_52862386/article/details/130946359

版权

NLP 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

HMM算法是一种用于标注问题的统计学习模型，基于齐次马尔可夫性和观测独立性假设。它涉及概率计算（前向和后向算法）、学习（EM算法）和解码（维特比算法）问题。在实际应用中，HMM广泛应用于语音识别、生物信息学和自然语言处理等领域。通过前向算法和后向算法，可以高效地计算序列概率，而EM算法用于参数估计，维特比算法用于找到最可能的隐藏状态序列。

摘要由CSDN通过智能技术生成

HMM算法背景

隐马尔可夫模型 (HMM) 是一种用于标注问题的统计学习模型，描述由隐藏的马尔可夫链随机生成观测序列的过程，是一种生成模型。其被广泛的应用于语音识别、生物信息、模式识别和自然语言处理等领域。

算法的基本概念

算法的定义

在这里插入图片描述
隐马尔可夫模型是关于时序的概率模型，描述了一个由隐藏的马尔可夫观测随机序列的过程。
隐藏的马尔可夫链随机生成的序列称为状态序列记为 $I=(i_{1},i_{2},\cdots,i_{T})$ 每个状态会生成一个观测，故将生成的观测序列记为 $O=(o_{1},o_{2},\cdots,o_{T})$
同时记所有可能的状态集合为 $Q=(q_{1},q_{2}.\cdots,q_{N})$ 所有可能的观测集合为 $V=(v_{1},v_{2},\cdots,v_{M})$
其中 $T$ 为序列的长度， $N$ 为状态的总数， $M$ 为观测值的总数

同时定义了状态转移矩阵
$=[a_{ij}]_{N\times N}\qquad a_{ij}=P(i_{t+1}=q_{j}|i_{t}=q_{i})\quad i,j\in (1,2,\cdots,N)$ $a_{ij}$ 是指 $t$ 时刻状态为 $q_{i}$ 转移到 $t + 1$ 时刻状态 $q_{j}$ 的概率

再定义发射矩阵 $B=[b_{j}(k)]_{N\times M}\qquad b_{j}(k)=P(o_{t}=v_{k}|i_{t}=q_{j})\quad k\in[1,M],j\in[1,N]$ $b_{j}(k)$ 是指 $t$ 时刻状态为 $q_{j}$ 的条件下产生观测序列为 $v_{k}$ 的概率

初始状态概率向量 $\pi=(\pi_{i}) \qquad \pi_{i}=P(i_1=q_{i}) \quad i\in(1,2,\cdots,N)$ $\pi_{i}$ 指 $t = 1$ 时刻状态处于 $q_{i}$ 的概率

所以隐马尔可夫模型由初试状态概率向量 $\pi$ 、状态转移矩阵 $A$ 和发射矩阵 $B$ 矩阵，故隐马尔可夫模型 $\lambda$ 可以记为 $\lambda = (\pi,A,B)$

隐马尔可夫模型的俩个假设

隐马尔可夫模型的俩个假设分别为齐次马尔可夫性假设和观测独立性假设

齐次马尔可夫性假设，其假设了时刻 $t$ 的状态 $i_{t}$ 只依赖于其前一时刻的状态，与其它时刻的状态和所有的观测序列无关，即
$P(i_{t}|o_{1},o_{2},\cdots,o_{t},i_{1},i_{2},\cdots,i_{t-1})=P(i_{t}|i_{t-1})$
观测独立性假设，其假设了任意时刻的观测值只依赖于该时刻马尔可夫链的状态，与其他观测状态和状态无关，即
$P(o_{t}|i_{1},i_{2}\cdots,i_{t},o_{1},o_{2},\cdots,o_{t-1}) = p(o_{t}|i_{t})$

HMM算法的三个问题

隐马尔可夫主要有三大问题需要解决，分别是概率计算问题、学习问题和解码问题，接下来分别讨论和解决问题

概率计算问题—向前和向后算法

对于概率计算问题就是再给定的参数 $\lambda$ 的前提下，如何求 $P(O|\lambda)$
首先
$P(O|\lambda)=\sum_{I}P(I,O|\lambda)=\sum_{I}P(O|I,\lambda)P(I|\lambda)$ 其中 $P(I|\lambda)$ 可以分解为 $P(I|\lambda) = P(i_{1},i_{2},\cdots,i_{T}|\lambda)=P(i_{T}|i_{1},i_{2},\cdots,i_{T-1},\lambda)\cdot P(i_{T-1},\cdots,i_{1}|\lambda)$ $=P(i_{T}|i_{T-1})\cdot P(i_{T-1},\cdots,i_{1}|\lambda)=a_{i_{t-1}i_{t}}\cdot P(i_{T-1},\cdots,i_{1}|\lambda)$ 其中 $P(i_{T}|i_{1},i_{2},\cdots,i_{T-1},\lambda)=P(i_{T}|i_{T-1})$ 是根据模型假设得到的
这里我们可以发现 $\cdot P(i_{T},\cdots,i_{1}|\lambda)$ 是可以切分成多个 $a_{ij}$ 的，只要重复地使用条件概率公式，故有 $P(I|\lambda) = P(i_{1}|\lambda)\prod_{t=2}^{T}a_{i_{t-1},i_{t}}=\pi_{i}\prod_{t=2}^{T}a_{i_{t-1},i_{t}}$

同理，根据模型假设对 $P(O|I,\lambda)$ 进行类似的操作，凑出 $P(o_{t}|i_{t})$ 的形式，即
$\begin{alignat*}{2} P(O|I,\lambda)&=P(o_{1},o_{2},\cdots,o_{t}|i_{1},i_{2},\cdots,i_{t},\lambda)\\&=P(o_{1}|o_{2},\cdots,o_{t},i_{1},i_{2},\cdots,i_{t},\lambda)P(o_{2},\cdots,o_{t}|i_{1},i_{2},\cdots,i_{t},\lambda)\\&=P(o_{1}|i_{1})P(o_{2},\cdots,o_{t}|i_{1},i_{2},\cdots,i_{t},\lambda)\\&=b_{i_{t}}(o_{1})\cdot P(o_{2},\cdots,o_{t}|i_{1},i_{2},\cdots,i_{t},\lambda)\\&=\prod_{t=1}^{T}b_{i_{t}}(o_{t}) \end{alignat*}$

所以得到 $\begin{alignat*}{2}P(O|\lambda)&=\sum_{I}\pi_{i}\cdot \prod_{t=2}^{T}a_{i_{t-1},i_{t}}\cdot\prod_{t=1}^{T}b_{i_{t}}(o_{t})\\ &=\sum_{i_{1}}\cdots\sum_{i_{2}}\sum_{i_{T}}\pi_{i}\cdot \prod_{t=2}^{T}a_{i_{t-1},i_{t}}\cdot\prod_{t=1}^{T}b_{i_{t}}(o_{t})\end{alignat*}$

这里的 $\sum_{i_{t}}$ 是指对 $t$ 时刻所有可能的状态取值 $i_{t}$ 进行累加求和，所以上诉公式的算法复杂度为 $O(TN^{T})$ ，复杂度十分的高，所以使用向前向后算法降低算法的复杂度。

前向算法

在这里插入图片描述

前向算法中，我们引入记号 $\alpha$ ，且 $\alpha_{t}(i)=P(o_{1},\cdots,o_{t},i_{t}=q_{t}|\lambda)$ ，则其代表的就是上图中虚线部分，即给定参数 $\lambda$ 下， $t$ 时刻状态为 $q_{i}$ 且观测序列为 $o_{1},\cdots,o_{t}$ 的概率。易知 $\alpha_{T}(i)=P(O,i_{T}=q_{i}|\lambda)$ ，所以有 $P(O|\lambda)=\sum_{i=1}^{n}P(O,i_{T}=q_{i}|\lambda)=\sum_{i=1}^{N}\alpha_{T}(i)$
所以这里我们就构建了 $P(O|\lambda)$ 与 $\alpha$ 的关系式，接下来只需要找到 $\alpha_{t}(i)$ 和 $\alpha_{t+1}(j)$ 的递推关系，就可以实现前向算法了
$\alpha_{t+1}(j)=P(o_{1},o_{2},\cdots,o_{t},o_{t+1},i_{t+1}=q_{j}|\lambda)$
这里我们要凑成 $\alpha_{t}(i)$ 就要引入一个变量 $i_{t}$ ，故 $\alpha_{t}(j)=\sum_{i=1}^{N}P(o_{1},\cdots,o_{t+1},i_{t}=q_{i},i_{t+1}=q_{j}|\lambda)$
接下来就可以开始使用条件概率公式简化了
$\begin{alignat*}{2} \alpha_{t+1}(j)&=\sum_{i=1}^{N}P(o_{1},\cdots,o_{t+1},i_{t}=q_{i},i_{t+1}=q_{j}|\lambda)\\ &=\sum_{i=1}^{N}P(o_{t+1}|o_{1},\cdots,o_{t},i_{t}=q_{i},i_{t+1}=q_{j},\lambda)\cdot P(o_{1},\cdots,o_{t},i_{t}=q_{i},i_{t+1}=q_{j}|\lambda)\\ &=\sum_{i=1}^{N}P(o_{t+1}|i_{t+1}=q_{j})P(i_{t+1}=q_{j}|o_{1},\cdots,o_{t},i_{t}=q_{i},\lambda)P(o_{1},\cdots,o_{t},i_{t}=q_{i}|\lambda)\\ &=\sum_{i=1}^{N}b_{j}(o_{t+1})\cdot P(i_{t+1}=q_{j}|i_{t}=q_{i})\cdot \alpha_{t}(i)\\ &= \sum_{i=1}^{N}b_{j}(o_{t+1})\cdot a_{ij}\cdot \alpha_{t}(i) \end{alignat*}$

所以有 $\alpha_{t+1}(j)= \sum_{i=1}^{N}b_{j}(o_{t+1})\cdot a_{ij}\cdot \alpha_{t}(i)$

在这里插入图片描述
通过上图我们可以发现，时刻 $t$ 转移到 $t + 1$ 时刻的算法复杂度为 $N^{2}$ ，共有 $T - 1$ 次转移，所以算法复杂度为 $O(TN^{2})$ ，算法复杂度有了明显的下降

后向算法

在这里插入图片描述

后向算法中我们引入记号 $\beta$ ，且 $\beta_{t}(j)=P(o_{t+1},o_{t+2},\cdots,o_{T}|i_{t}=q_{i},\lambda)$ ，表示在给定 $t$ 时刻状态为 $q_{j}$ 的状态为 $q_{i}$ 的条件下，观测序列为 $o_{t+1},\cdots,o_{T}$ 的概率。易知 $\beta_{1}(i)=P(o_{2},\cdots,o_{T}|i_{1}=q_{i},\lambda)$
$\begin{alignat*}{2} P(O|\lambda)&= P(o_{1},\cdots,o_{T}|\lambda)\\ &=\sum_{i=1}^{N}P(o_{1},\cdots,o_{T},i_{1}=q_{i}|\lambda)\\ &=\sum_{i=1}^{N}P(o_{1},\cdots,o_{T}|i_{1}=q_{i},\lambda)P(i_{1}=q_{i}|\lambda)\\ &=\sum_{i=1}^{N}P(o_{2},\cdots,o_{T}|i_{1}=q_{i},\lambda)P(o_{1}|o_{2},\cdots,o_{T},i_{1}=q_{i},\lambda)\pi_{i}\\ &=\sum_{i=1}^{N}\beta_{1}(i)\cdot P(o_{1}|i_{1}=q_{i})\cdot\pi_{i}\\ &=\sum_{i=1}^{N}\beta_{1}(i)\cdot b_{i}(o_1) \cdot\pi_{i} \end{alignat*}$

接下来就是找递推公式了
$\begin{alignat*}{2} \beta_{t}(i) &= P(o_{t+1},o_{t+2},\cdots,o_{T}|i_{t}=q_{i},\lambda)\\ &=\sum_{j=1}^{N}P(o_{t+1},o_{t+2},\cdots,o_{T},i_{t+1}=q_{j}|i_{t}=q_{i},\lambda)\\ &=\sum_{j=1}^{N}P(i_{t+1}=q_{j}|o_{t+1},o_{t+2},\cdots,o_{T},i_{t}=q_{i},\lambda)P(o_{t+1},o_{t+2},\cdots,o_{T}|i_{t}=q_{i},i_{t+1}=q_{j},\lambda)\\ &=\sum_{j=1}^{N}P(i_{t+1}=q_{j}|i_{t}=q_{i})P(o_{t+1},o_{t+2},\cdots,o_{T}|i_{t}=q_{i},i_{t+1}=q_{j},\lambda)\\ &=\sum_{j=1}^{N}a_{i,j}P(o_{t+1},o_{t+2},\cdots,o_{T}|i_{t+1}=q_{j},\lambda)\\ &=\sum_{j=1}^{N}a_{i,j}P(o_{t+2},\cdots,o_{T}|i_{t+1}=q_{j},\lambda)P(o_{t+1}|o_{t+2},\cdots,o_{T},i_{t+1}=q_{j},\lambda)\\ &=\sum_{j=1}^{N}a_{i,j}P(o_{t+2},\cdots,o_{T}|i_{t+1}=q_{j},\lambda)P(o_{t+1}|i_{t+1}=q_{j})\\ &=\sum_{j=1}^{N}a_{i,j}\cdot \beta_{t+1}(j)\cdot b_{j}(o_{t+1}) \end{alignat*}$

这样就可以得到递推公式 $\beta_{t}(i) =\sum_{j=1}^{N}a_{i,j}\cdot \beta_{t+1}(j)\cdot b_{j}(o_{t+1})$

学习问题—EM算法

HMM模型的定义 $\lambda=(\pi,A,B)$ ，目标是 $\lambda^{t}=(\pi^{t},A^{t},B^{t})\longrightarrow \lambda^{t+1}=(\pi^{t+1},A^{t+1},B^{t+1})$

在EM算法中 $\theta^{t+1}=\argmax_{\theta}\int_{z}P(z|X,\theta^{t})\log P(X,z|\theta)$

其中 $x$ 为观测值对应观测序列 $O$ ， $z$ 为隐变量对应状态序列 $I$ ，参数 $\theta$ 则对应 $\lambda$

所以在HMM中，表达式为 $\lambda^{t+1}=\argmax_{\lambda}\sum_{I}\log P(O,I|\lambda)P(I|O,\lambda^{t})$

这里做一个化简，由于 $O$ 和 $\lambda^{t}$ 是给定的，所以有 $\lambda^{t+1}=\argmax_{I}\log P(O,I|\lambda)\frac{P(O,I|\lambda^{t})}{P(O|\lambda^{t})}=\argmax_{I}logP(O,I|\lambda)\cdot P(O,I|\lambda^{t})$

故令 $Q(\lambda,\lambda^{t})=\argmax_{I}logP(O,I|\lambda)\cdot P(O,I|\lambda^{t})$

然后将 $P(O,I|\lambda)=\pi_{i}\cdot \prod_{t=2}^{T}a_{i_{t-1},i_{t}}\cdot\prod_{t=1}^{T}b_{i_{t}}(o_{t})$ 代入

则有 $Q(\lambda,\lambda^{t})=\sum_{I}[\log \pi_{i}+\sum^{T}_{t=2}a_{i_{t-1},i_{t}}+\sum_{t=1}^{T}b_{i_{t}}(o_{t})]\cdot P(O,I|\lambda^{t})$

对于这个问题，我们可以使用EM算法，先假定A,B为常量，求 $\pi^{t+1}$ ，即 $\pi^{t+1}=\argmax_{\pi}\sum_{I}[\log \pi_{i}+\sum^{T}_{t=2}a_{i_{t-1},i_{t}}+\sum_{t=1}^{T}b_{i_{t}}(o_{t})]\cdot P(O,I|\lambda^{t})=\argmax_{\pi}\sum_{I}\log \pi_{i}\cdot P(O,I|\lambda^{t})$

这里可以做一个化简，即 $\argmax_{\pi}\sum_{I}\log \pi_{i_{t}}\cdot P(O,I|\lambda^{t})=\argmax_{\pi}\sum_{i_{1}}\cdots\sum_{i_{2}}\sum_{i_{T}}\log \pi_{i_{t}}\cdot P(O,I|\lambda^{t})=\argmax_{\pi}\sum_{i_{1}}\log\pi_{i}P(O,i_{1}|\lambda^{t})$

所以这里我们的目标函数为 $\argmax_{\pi}\sum_{i_{1}}\log\pi_{i}P(O,i_{1}|\lambda^{t})$ $\qquad\sum_{i}\pi_{i} =1$

这里可以使用拉格朗日乘子法求解，即 $\gamma(\pi,\eta)=\sum_{i_{1}}\log\pi_{i}P(O,i_{1}|\lambda^{t})+\eta(\sum_{i}\pi_{i}-1)$

接下来接可以求导了 $\frac{\partial\gamma(\pi,\eta)}{\partial\pi_{i}}=\frac{1}{\pi_{i}}P(O,i_{1}|\lambda^{t})+\eta=0$

可以求得 $P(O,i_{1}|\lambda^{t})+\pi_{i}\eta=0$

这里对 $i_{1}$ 做累加就有 $\sum_{i_{1}}P(O,i_{1}|\lambda^{t})+\pi_{i}\eta=P(O|\lambda^{t})+\eta=0$

所以解得 $\eta=-P(O|\lambda^{t})$ ，代入原式中有 $P(O,i_{1}|\lambda^{t})+\pi_{i}\eta=P(O,i_{1}|\lambda^{t})-P(O|\lambda^{t})\pi_{i}=0$

所以有 $\pi^{t+1}_{i}=\frac{P(O,i_{1}|\lambda^{t})}{P(O|\lambda^{t})}$ 上述变量都是给定的，所以可以求得 $\pi^{t}$ ，同理也可以求得 $A^{t}$ ，和 $B^{t+1}$ 。

解码问题—viterbi算法

Decoding问题，是要解决通过寻找最大概率路径的问题。这里我们引入符号 $\omega_{t}(i)$ ，记为在时刻 $1 : t - 1$ 中每个时刻的最大概率。 $\omega_{t}(i)=\max_{i_{1},i_{2},\cdots,i_{t-1}}P(o_{1},o_{2},\cdots,o_{t},i_{1},i_{2},\cdots,i_{t-1},i_{t}=q_{i})$ $\omega_{t+1}(j) = \max_{1\leq i\leq N}\omega_{t}(i)a_{i,j}b_{j}(o_{t+1})$
其中我们可以用 $\zeta_{t+1}(j)$ 来记录 $y_{t+1}$ 取 $i$ 时 $y_{t}$ 的最佳取值，即 $\zeta_{t+1}(j)=\argmax_{1\leq i\leq N}\omega_{t}(i)\cdot a_{i,j}\cdot b_{j}(o_{t+1})=\argmax_{1\leq i\leq N}\omega_{t}(i) \cdot a_{i,j}$ 其中 $b_{j}(o_{t+1})$ 是固定的，所以可以去掉
所以 $\displaystyle i^{*}_{T} = \argmax_{j=1:N} \omega_{T}(j)$
然后根据 $\zeta$ 进行回溯获得最佳路径，即 $i^{*}_{t} = \zeta_{t+1}(i^{*}_{T})$

通过回溯就可以得到最佳路径为 $i^{*} =(i_{1}^{*},i_{2}^{*},\cdots,i_{T}^{*})$

通过上述方法，我们就可以实现最大概率路径的寻找

HMM算法的应用场景

HMM的任务场景主要有俩种，一种是 $\lambda$ 未知，通过学习算法去推断 $\lambda$ ；另一种就是 $\lambda$ 已知，去推理后续的一些东西，例如解码、概率计算、Filtering、Smoothing和预测。学习问题、解码问题和概率计算的问题已经在上面详细阐述了。

接下来我们根据这张图完成下列任务的解释
在这里插入图片描述

Filtering 任务

Filtering问题是解决 $P(z_{t}|x_{1},x_{2},\cdots,x_{t})$ 的计算问题

对于 $P(z_{t}|x_{1},x_{2},\cdots,x_{t})$ ，我们可以通过化简得到
$P(z_{t}|x_{1},x_{2},\cdots,x_{t})=\frac{P(x_{1,\cdots,x_{t}},z_{t})}{P(x_{1},\cdots,x_{t})}=\frac{P(x_{1,\cdots,x_{t}},z_{t})}{\sum_{z_{t}}P(x_{1},\cdots,x_{t},z_{t})}$

又因为 $\alpha_{t}(z_{t})=P(x_{1,\cdots,x_{t}},z_{t})$ ，而 $P(x_{1},\cdots,x_{t},z_{t})$ 是常量，所以可以有 $P(z_{t}|x_{1},x_{2},\cdots,x_{t})\propto \alpha_{t}(z_{t})$

Smoothing任务

Smoothing问题是在给定观测值 $x_{1},x_{2},\cdots,x_{T}$ 之后，求 $z_{t}$ ，即 $P(z_{t}|x_{1},\cdots,x_{T})$
与Filtering任务类似，我们可以简化为 $P(z_{t}|x_{1},\cdots,x_{T})=\frac{P(x_{1},\cdots,x_{T},z_{t})}{\sum_{z_{t}}P(x_{1},\cdots,x_{T},z_{t})}$

对于 $P(x_{1},\cdots,x_{T},z_{t})$ 可以做一下处理 $\begin{alignat*}{2}P(x_{1},\cdots,x_{T},z_{t})&=P(x_{t+1},\cdots,x_{T}|x_{1},\cdots,x_{t,}z_{t})P(x_{1},\cdots,x_{t},z_{t})\\ &=P(x_{t+1},\cdots,x_{T}|x_{1},\cdots,x_{t,}z_{t})\alpha_{t}(z_{t})\\ &=P(x_{t+1},\cdots,x_{T}|z_{t})\cdot\alpha_{t}(z_{t})\\ &=\beta_{t}(z_{t})\alpha_{t}(z_{t}) \end{alignat*}$
其中 $P(x_{t+1},\cdots,x_{T}|x_{1},\cdots,x_{t,}z_{t})=P(x_{t+1},\cdots,x_{T}|z_{t})$ ，可以用贝叶斯网中的图论分析解释，由于 $x_{1:t}\rightarrow z_{t}\rightarrow x_{t+1:T}$ 的路径是唯一的，如果缺失 $z_{t}$ 则会造成阻塞，所以在给定 $z_{t}$ 的条件下 $x_{1:t}$ 与 $x_{t:T}$ 相互独立。所以才有 $P(x_{t+1},\cdots,x_{T}|x_{1},\cdots,x_{t,}z_{t})=P(x_{t+1},\cdots,x_{T}|z_{t})$

所以 $P(z_{t}|x_{1},\cdots,x_{T})\propto P(x_{1},\cdots,x_{T},z_{t})=\beta_{t}(z_{t})\alpha_{t}(z_{t})$ ，同时它也被称为前向后向算法

Prediction任务

预测任务主要是已知 $x_{1},\cdots,x_{t}$ 来预测 $x_{t+1}$ 和 $z_{t+1}$ 。即 $P(z_{t+1}|x_{1},\cdots,x_{t})$ 和 $P(x_{t+1}|x_{1},\cdots,x_{t})$

对于 $P(z_{t+1}|x_{1},\cdots,x_{t})$ ，我们可以引入 $z_{t}$ ，然后在进行变换，具体如下 $\begin{alignat*}{2}P(z_{t+1}|x_{1:t})&=\sum_{z_{t}}P(z_{t+1},z_{t}|x_{1:t})\\ &=\sum_{z_{t}}P(z_{t}|x_{1:t})P(z_{t+1}|z_{t},x_{1:t})\\ &=\sum_{z_{t}}\alpha_{t}(z_{t})\cdot P(z_{t+1}|z_{t})\\ &=\sum_{z_{t}}\alpha_{t}(z_{t})a_{z_{t},z_{t+1}} \end{alignat*}$

对于 $P(x_{t+1}|x_{1},\cdots,x_{t})$ ，我们可以引入 $z_{t+1}$ ，与 $P(z_{t+1}|x_{1},\cdots,x_{t})$ 构成联系，从而求解，具体如下
$\begin{alignat*}{2} P(x_{t+1}|x_{1:t})&=\sum_{z_{t+1}}P(x_{t+1},z_{t+1}|x_{1:t})\\ &=\sum_{z_{t+1}}P(z_{t+1}|x_{1:t})P(x_{t+1}|z_{t+1},x_{1:t})\\ &=\sum_{z_{t+1}}P(z_{t+1}|x_{1:t})P(x_{t+1}|z_{t+1})\\ &=\sum_{z_{t+1}}P(z_{t+1}|x_{1:t})b_{z_{t+1}}(x_{t+1})\\ &=\sum_{z_{t}}\alpha_{t}(z_{t})a_{z_{t},z_{t+1}}\cdot b_{z_{t+1}}(x_{t+1}) \end{alignat*}$