端到端的语音识别模型

最新推荐文章于 2024-07-26 13:24:37 发布

44070509

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量4k

点赞数 3

文章标签：语音识别人工智能深度学习

本文链接：https://blog.csdn.net/weixin_44070509/article/details/122420242

版权

端到端的语音识别模型CTC（李宏毅深度学习HLP课程笔记）

一、CTC

1、模型介绍

CTC可以用于在线流式语音识别，因此encoder部分需要选择uni-directional RNN，模型结构图如下，输入的语音信号经过encoder逐一转换成语音表征，再经过一个线性分类器得到每个时刻输出类别的概率，假设所有的类别个数为V：
在这里插入图片描述
一般来说，假设输入的语音长度a，对应的输出label长度为b，则由于语音帧比较长，识别出来的文字序列相对来说较短，所以b << a。在CTC模型中，为了解决alignment问题，在token中增加一个blank( $\varnothing$ )，可以向输出的label中随机添加blank，使得长度对齐，因此输出的类别总个数为V+1。这样一来在处理输出的token时，需要合并所有相邻的相同token，并移除blank。
比如 $\varnothing$ $\varnothing$ dd $\varnothing$ e $\varnothing$ e $\varnothing$ pp，处理之后的输出为deep。

2、存在的问题

如果把CTC的linear classifier想象成decoder，则decoder每输入进一个vector，就要对应生成一个输出，并且每个输出都是独立的，并不能有效利用上下文信息（尽管encoder有可能学到上下文信息）。

二、Recurrent Neural Aligner，RNA

针对CTC存在的问题，即linear classifier的每一个输出之间都是独立的，RNA将linear classifier换成RNN/LSTM就解决了这个问题，转换后的结构大致如下图所示。
在这里插入图片描述

三、RNN-T

有时一个发音可以对应输出一串token，但是CTC和RNA都是每输入一个vector，对应只输出一个token。对于这个问题，RNN-T可以针对一个vector输出多个token，直到没有token，输出 $\varnothing$ ，代表需要接收下一个vector，模型结构图如下所示。（如果一共有t个语音feature，则一共输出t个 $\varnothing$ ）
在这里插入图片描述

实际上，RNN-T并不是简单的地把linear classifier替换成RNN/LSTM，而是在之前linear classifier的基础上额外增加了RNN，这种方法的优势是额外的RNN可以看作language model，因此它不用语音数据，只需要大量文本数据（也不需要 $\varnothing$ ）就可以进行训练。
在这里插入图片描述

四、Neural Transducer

CTC、RNA、RNN-T每次都只读一个feature，Neural Transducer每次可以读多个feature，并对它们作attention之后作为输入，模型结构如下图所示，

在这里插入图片描述

五、Monotonic Chunkwise Attention，MoChA

Neural Transducer中window每次移动的距离都是相同的，MoChA可以动态移动窗口。
在这里插入图片描述

六、总结

在这里插入图片描述

44070509

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
端到端的语音识别模型

端到端的语音识别模型CTC（李宏毅深度学习HLP课程笔记）一、CTC1、模型介绍CTC可以用于在线流式语音识别，因此encoder部分需要选择uni-directional RNN，模型结构图如下，输入的语音信号经过encoder逐一转换成语音表征，再经过一个线性分类器得到每个时刻输出类别的概率，假设所有的类别个数为V：一般来说，假设输入的语音长度a，对应的输出label长度为b，则由于语音帧比较长，识别出来的文字序列相对来说较短，所以b << a。在CTC模型中，为了解决alignm
复制链接

扫一扫