Chapter1-6_Speech_Recognition(RNN-T Training)

最新推荐文章于 2024-05-29 01:07:00 发布

七元权

最新推荐文章于 2024-05-29 01:07:00 发布

阅读量850

点赞数 1

分类专栏：课程笔记-李宏毅文章标签：自然语言处理神经网络深度学习李弘毅

本文链接：https://blog.csdn.net/zjuPeco/article/details/105894372

版权

课程笔记-李宏毅专栏收录该内容

31 篇文章 17 订阅

订阅专栏

文章目录

本文为李弘毅老师【Speech Recognition - RNN-T Training (optional)】的课程笔记，课程视频youtube地址，点这里👈(需翻墙)。

下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。

文章索引：

上篇 - 1-5 Alignment of HMM, CTC and RNN-T

下篇 - 1-7 Language Modeling

总目录

1 一个alignment概率的计算

不管是HMM，还是CTC，还是RNN-T，它们计算得到某一个alignment的概率的方法是一致的。下面以RNN-T为例，来说一下计算的方法。

如下图所示，我们现在来计算 $h=\phi c \phi \phi a \phi t \phi \phi$ 的概率，写成公式就是

$P(h|X)=P(\phi | X)P(c | X,\phi)P(\phi | X,\phi c) \cdots$
ch1-6-1
那么这个结合模型到底是怎么算出来的呢？在decode的时候，RNN-T会有两个RNN，一个RNN_1（上半图）会吃一个“ $< B O S >$ “这样的起始符，然后吐出一个 $l_0$ ，这个 $l_0$ 和encoder吐出的 $h_1$ 会一起喂给另一个RNN_2（下半图），RNN_2会生成一个概率分布 $p_{1,0}$ 表示着这个time step由 $h_1$ 和 $l_0$ 生成的字典中每个字符和" $\phi$ "的概率，最后我们从中找到” $\phi$ “对应的概率是多少，就得到了我们的 $P(\phi | X)$ 。

由于我们这次计算的是" $\phi$ "，根据RNN-T的特性，我们不会去计算RNN_1，而是把新的 $h_2$ 和旧的 $l_0$ 塞进RNN_2当中，吐出一个由 $h_2$ 和 $l_0$ 生成的概率分布 $p_{2,0}$ ，从这个 $p_{2,0}$ 中找到字符"c"的概率，就得到了 $X,\phi)$ 。

又因为RNN-T的特性，在没有遇到" $\phi$ “不会喂给RNN_2新的 $h$ ，而 $RNN_1$ 需要重新计算一个得到 $l_1$ ，于是由 $h_2$ 和 $l_1$ 生成概率分布 $p_{2,1}$ ，从中找到” $\phi$ "的对应概率，就得到了 $P(\phi | X,\phi c)$ 。

依此类推，一致计算下去，直到算完整个 $h$ 。然后把得到的概率值，全都乘起来，就得到了我们的 $P (h ∣ X)$ 。
ch1-6-2

2 所有alignments概率的计算

$P (h ∣ X)$ 会算了，接下来，我们要来算一下 $P (Y ∣ X)$ 。得益于RNN-T有两个结构上不影响的RNN，我们在计算 $p_{i,j}$ 的时候，不管前面的输出顺序如何，其结果都是保持不变的。比如，在计算 $p_{4,2}$ 时，不管前面的输出序列是" $\phi c \phi \phi a$ "，还是“ $\phi \phi a \phi$ "，还是“ $\phi \phi \phi c a$ "，我们的 $l^2$ 和 $h^4$ 是打死不变的，所以 $p_{4,2}$ 是不会变的。

不过这里我其实有一个疑惑，虽然 $l^2$ 和 $h^4$ 是不会变的，但是生成 $p_{4,2}$ 的这个RNN的记忆不会因为前面产生token的顺序不同而变化吗？存疑。（疑惑已解，生成 $p_{4,2}$ 的是简单的DNN，不是RNN，黄色方块没有横向的传播）
ch1-6-3
现在我们就认为 $p_{i,j}$ 是不会变化的，然后来看一下下面这个表格。然后我们会用和HMM中的forward algorithm差不多的方法来计算 $P (Y ∣ X)$ 。

首先我们定义 $\alpha_{i,j}$ 表示读取了第 $i$ 个声音讯号的特征并且输出了第 $j$ 个token时，所有alignments的概率之和。比如 $\alpha_{4,2}$ 就表示输出了” $c$ “和" $a$ "，且用到 $h_4$ 时，所有alignments的概率之和。

而 $\alpha_{4,2}$ 只可能从 $\alpha_{4,1}$ 或者 $\alpha_{3,2}$ 过来，所以有

$\alpha_{4,2} = \alpha_{4,1}p_{4,1}(a)+ \alpha_{3,2}p_{3,2}(\phi)$

按照这个办法，我们就可以把这整个表格填满，而右下角最后一个格子的概率，就是 $P (Y ∣ X)$ 。
ch1-6-4

3 Training

而以上的这些步骤，都只是一个forward的过程，我们还没有到training这一步。我们先要有一个一组参数 $\theta$ 可以输出 $P_{\theta}(\hat{Y}|X)$ ，然后我们再用梯度下降的方法去优化参数，使得给定一段声音讯号 $X$ ，模型输出标签 $\hat{Y}$ 的概率是最大的。

$\theta^* = \underbrace{argmax}_{\theta} log P_{\theta}(\hat{Y}|X)$

在梯度下降时，我们当然要先求解一下偏微分

$\frac{\partial P(\hat{Y}|X)}{\partial \theta}$

而这里的 $P(\hat{Y}|X) = \sum_{h \in align(\hat{Y})}P(h|X)$ 是一堆和 $p_{1,0}(\phi)$ ， $p_{2,0}(c)$ ， $p_{2,1}(\phi)$ ， $\cdots$ 这些相关的连乘和连加。故

$\frac{\partial P(\hat{Y}|X)}{\partial \theta} = \frac{\partial p_{4,1}(a)}{\partial \theta} \frac{P(\hat{Y}|X)}{\partial p_{4,1}(a)}+\cdots$

我们以 $\frac{\partial p_{4,1}(a)}{\partial \theta} \frac{P(\hat{Y}|X)}{\partial p_{4,1}(a)}$ 为例，先来算一下 $\frac{\partial p_{4,1}(a)}{\partial \theta}$ 。这个部分就和正常的RNN神经网络反向传播（BPTT）一致，这里不做说明。示意图如下所示。
ch1-6-5
而在计算 $\frac{P(\hat{Y}|X)}{\partial p_{4,1}(a)}$ 时，我们就可以把 $P(\hat{Y}|X)$ 拆分成

$P(\hat{Y}|X) = \sum_{h\ with\ p_{4,1}(a)} P(h|X)+\sum_{h\ without\ p_{4,1}(a)} P(h|X)$

这里的第二项和 $p_{4,1}(a)$ 没有关系，故求偏导为0，可直接忽略，前一项可以写成

$\sum_{h\ with\ p_{4,1}(a)} P(h|X) = \sum_{h\ with\ p_{4,1}(a)} p_{4,1}(a) \times others$

故

$\frac{P(\hat{Y}|X)}{\partial p_{4,1}(a)} = \sum_{h\ with\ p_{4,1}(a)} others=\sum_{h\ with\ p_{4,1}(a)} \frac{P(h|X)}{p_{4,1}(a)}=\frac{1}{p_{4,1}(a)}\sum_{h\ with\ p_{4,1}(a)}P(h|X)$

那么问题来了，这个 $\sum_{h\ with\ p_{4,1}(a)}P(h|X)$ 该怎么算呢？这里，我们就要引进HMM中的backward algorithm。这个和之前的forward algorithm很类似，我们定义一个参数 $\beta_{i,j}$ 表示从输入第 $i$ 个声音讯号，输出第 $j$ 个token的位置开始，一致走到终点的所有alignments的概率之和。

而这个 $\beta_{i,j}$ 也是和 $\alpha_{i,j}$ 一样，整个表格是可以事先填满的。
ch1-6-6
那么根据 $\alpha_{i,j}$ 和 $\beta_{i,j}$ 的定义，我们有

$\sum_{h\ with\ p_{4,1}(a)}P(h|X) = \alpha_{4,1} p_{4,1}(a)\beta_{4,2}$

那么就有

$\frac{P(\hat{Y}|X)}{\partial p_{4,1}(a)} = \alpha_{4,1} \beta_{4,2}$

示意图如下所示。
ch1-6-7

4 Inference

现在假设我们已经train好了一个模型，然后输出 $X$ 和 $Y$ 就可以计算出 $P (Y ∣ X)$ 这个概率，那么我们要做的就是找到一个 $Y^*$ 使得 $P(Y^*|X)$ 最大。

$Y^*=\underbrace{argmax}_{Y}P(Y|X)$

虽然有演算法可以做到这点，但还是太过复杂，实际情况下，我们不会那么去做。我们会去找一个近似的解。而这个求近似解的方法，就是取每一个 $p_{i,j}$ 中概率最大的那一个就可以了。这个也被称为greedy decoding。

ch1-6-8

如果希望更精确一些，也可以用Beam Search。greedy decoding可以说是beam search的一种特殊情况，就是beam=1的时候的情况。在遍历每个time step的时候，我会会一直保留一个大小为beam的候选集，候选集中是多个长度相等，但不同的字符串，每个字符串有一个score，也就是其概率大小。

比如我们有一个非常简单的输出矩阵为，其中#就是空白符 $\phi$
matrix_sample
我们用beam search取找其最优组合的过程为

要注意的是，每次得到的新的字符串可能来自于不同的beam，要把他们的概率都加起来。beam越大，最终输出的结果就越准，但相应的计算成本也就更高。一般情况下，我们都是greedy search来做的，没必要用这个，仅作为了解。其实现可见[这里]。(https://github.com/githubharald/CTCDecoder/blob/master/ctc_decoder/beam_search.py)

5 小结

最后，我们来比较一下LAS，CTC以及RNN-T这三者的异同。在decoder这部分，LAS和RNN-T是依赖于之前的输出的，而CTC是不管的；CTC和RNN-T是需要对结果做alignment的，而LAS是输出什么就是什么的；LAS的training就是硬train一发，而CTC和RNN-T由于需要alignment，会复杂一些；LAS是无法做到句子还没念完就输出预测结果的，但是CTC和RNN-T是可以的。
ch1-6-9

七元权

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Chapter1-6_Speech_Recognition(RNN-T Training)

文章目录1 一个alignment概率的计算本文为李弘毅老师【Speech Recognition - RNN-T Training (optional)】的课程笔记，课程视频youtube地址，点这里????(需翻墙)。下文中用到的图片均来自于李宏毅老师的PPT，若有侵权，必定删除。1 一个alignment概率的计算不管是HMM，还是CTC，还是RNN-T，它们计算得到某一个alignmen...
复制链接

扫一扫